https://nlp.stanford.edu/projects/glove/
我正在尝试使用GloVe来总结音乐评论,但我想知道哪个版本最适合我的项目 . 请问“glove.840B.300d.zip”会给我一个更准确的文本摘要,因为它使用了更多的令牌吗?或者维基百科2014 Gigaword 5可能比Common Crawl更具代表性?谢谢!
https://nlp.stanford.edu/projects/glove/
我正在尝试使用GloVe来总结音乐评论,但我想知道哪个版本最适合我的项目 . 请问“glove.840B.300d.zip”会给我一个更准确的文本摘要,因为它使用了更多的令牌吗?或者维基百科2014 Gigaword 5可能比Common Crawl更具代表性?谢谢!
1 回答
不幸的是,我认为没有人可以给你一个更好的答案:
“尝试几种选择,看哪哪种效果最好”
我见过使用维基百科2014 Gigaword 100d载体的工作,这些载体产生SOTA结果用于阅读理解 . 如果没有实验,很难确切地说哪个语料库更接近您的音乐评论集,或者更大尺寸字嵌入的影响是什么 .
这只是随机的建议,但我想我建议按此顺序尝试:
来自维基百科千禧300d的100d来自Common Crawl的Wikipedia Gigaword 300d
您可以在原型设计时从较小的尺寸嵌入开始,然后您可以尝试使用更大的嵌入来查看是否获得了性能增强 .
并且本着促进其他团队工作的精神,我肯定会说你应该看看AllenNLP的这些ELMo载体:
http://allennlp.org/elmo
他们看起来很有前途!