PLS . 告诉我如何推荐推荐系统的不 balancer 数据集 . 根据我的知识,需要为每个用户创建培训和测试文件,并将其评级作为类标签 . 例如:假设用户分别给出了 Item1Item4Item3 rating 5 ,5和1,我们希望预测他的评级 Item6 对于 user1 ,训练数据将是:

User1_F1,User1_F2,......................Item1_F1,Item1_F2....,5
User1_F1,User1_F2,......................Item4_F1,Item4_F2....,5
User1_F1,User1_F2,......................Item3_F1,Item3_F2....,1

// User1_F1 (显示 user1 的特征)和 Item3_F1 (显示 item3 的特征)等等......

测试数据将是: User1_F1User1_F2 ,...................... Item6_F1Item6_F2 ....,?如果我错了,请纠正我....在这里,我们可以看到类 label1 只出现一次但 class5 来了两次,如何消除这种不 balancer 的数据集问题?还告诉我如何处理不 balancer 数据或任何可以在对此数据应用推荐之前进行预处理的工具?