PLS . 告诉我如何推荐推荐系统的不 balancer 数据集 . 根据我的知识,需要为每个用户创建培训和测试文件,并将其评级作为类标签 . 例如:假设用户分别给出了 Item1
, Item4
和 Item3
rating 5
,5和1,我们希望预测他的评级 Item6
对于 user1
,训练数据将是:
User1_F1,User1_F2,......................Item1_F1,Item1_F2....,5
User1_F1,User1_F2,......................Item4_F1,Item4_F2....,5
User1_F1,User1_F2,......................Item3_F1,Item3_F2....,1
// User1_F1
(显示 user1
的特征)和 Item3_F1
(显示 item3
的特征)等等......
测试数据将是: User1_F1
, User1_F2
,...................... Item6_F1
, Item6_F2
....,?如果我错了,请纠正我....在这里,我们可以看到类 label1
只出现一次但 class5
来了两次,如何消除这种不 balancer 的数据集问题?还告诉我如何处理不 balancer 数据或任何可以在对此数据应用推荐之前进行预处理的工具?