大型数据集的多标签分类方法-Java 学习之路

我意识到还有一个类似 Headers 的问题，但我的数据集非常不同 .

我有近4000万行和大约3千个标签 . 运行一个简单的sklearn train_test_split需要将近20分钟 .

我最初使用的是多类分类模型，这是我所有的经验，并且意识到由于我需要提供所有可能的标签，特定的记录可以绑定，我应该使用多标签分类方法 .

我正在寻找有效如何做到这一点的建议 . 我尝试了二元相关性，花了近4个小时来训练 . 分类器链在22小时后出现内存错误 . 我害怕尝试一个标签的功能，因为我读过它们对大量数据不起作用 . 最后，我有适应的算法，MlkNN然后合奏方法（我也担心性能明智） .

有没有其他人有这类问题和数据量的经验？除了建议的模型，我也希望获得有关最佳训练方法的建议，例如train_test_split比率或不同/更好的方法 .

1 回答