我是机器学习的新手,但是,一位经验丰富的程序员....
我有很多关于客户/代理商互动的数据,这些互动的评级从客户的角度来看是正面的/负面的...我还有很多关于客户的功能(年龄,性别,以前的支出,购买的产品, . ...等等)
我想培训一个可以从客户特征中学习的模型,他是最好的代理商,可能会产生最高评级...假设类似客户(类似特征)会导致代理商能够为他们服务一样的方法.....
假设以下pandas Dataframe:dataset
AgentID Score Cust_F1 Cust_F2 Cust_F3 ..... Cust_Fn
0 1 10 1 0 1 2
1 1 0 0 1 2 0
2 1 9 1 2 1 2
3 2 10 0 1 1 1
4 2 9 0 1 2 1
5 2 0 1 0 2 2
X = dataset.drop([['AgendID','Score']],1).values
y = dataset['AgentID'].values
clf = RandomForestClassifier(n_estimators=100, random_state=1)
clf.fit(X,y)
我想要一种训练模型拒绝(负面训练)所有样本得分= 0的方法 . 我找不到用sklearn做这个的方法...当然,我可以从训练数据中删除得分= 0的样本,但是,我相信它们是非常有 Value 的信息,可以帮助算法正确分类......
我也查看了sample_weight参数,我想如果我把负值放在那里会有所帮助,但是,文档中没有提到这个......
有人可以帮帮我吗...