深度学习模型是否支持H2O中的多标签分类问题或任何其他算法?
Orginal Response Variable -Tags:
apps, email, mail
finance,freelancers,contractors,zen99
genomes
gogovan
brazil,china,cloudflare
hauling,service,moving
ferguson,crowdfunding,beacon
cms,naytev
y,combinator
in,store,
conversion,logic,ad,attribution
将它们映射到字典的键上后:然后
响应变量如下所示:
[74]
[156, 89]
[153, 13, 133, 40]
[150]
[474, 277, 113]
[181, 117]
[15, 87, 8, 11]
谢谢
2 回答
不,H2O只包含学习一次预测单个响应变量的算法 . 您可以将每个独特的组合转换为单个类,并以这种方式训练多类模型,或使用单独的模型预测每个类 .
任何创建模型的算法都可以为一组输入提供“财务,自由职业者,承包商,zen99”,为另一组输入创建“cms,naytev”,这种算法可能会过度拟合 . 您需要退后一步,思考一下您的实际问题 .
但是代替这一点,这里有一个想法:在你的答案词上训练一些单词嵌入(或使用一些预先训练过的单词) . 然后,您可以平均每组值的向量,并希望这为您提供“主题”的良好数字表示 . 然后,您需要将100维平均单词向量转换为单个数字(PCA会浮现在脑海中) . 现在你有一个可以给机器学习算法的数字,它可以预测 .
你还有一个问题:预测了一个数字,你如何将这个数字变成一个100-dim向量,从那里到一个主题,从那里进入主题词?棘手,但也许并非不可能 .
(顺便说一句,如果你把上面的"single number"变成一个因素,并让机器学习模型做一个分类,预测与之前见过的最相似的话题......你基本上已经完全循环并且会得到与the one you started with that has too many classes相同的模型 . )