'negative sampling'如何提高word2vec中的单词表示质量？

提问于 2024-05-11T15:35:20+08:00

浏览次

0

' word2vec ' improves the training speed, that'中的负抽样显然！

但为什么' makes the word representations significantly more accurate. '？

我没有找到相关的讨论或细节 . 你能帮我吗？

1 回答

1

很难描述该声明的作者可能意味着什么，而没有它出现在哪里的完整背景 . 例如，可以针对不同的任务优化单词向量，并且使单词向量更好地用于一个任务的相同选项可能使它们对另一个任务更糟糕 .

自谷歌原始论文和代码发布以来评估单词向量的一种流行方法是一组单词类比问题 . 这些给出了一个很好的可重复的摘要“准确度”百分比，因此作者可能意味着对于特定的训练语料库，在该特定问题上，保持其他事物不变，负采样模式具有更高的“准确度”分数 .

但这并不意味着它总是更好，有任何语料库，或任何其他下游评估质量或准确性的任务 .

具有较大语料库，尤其是较大词汇表（更多独特单词）的项目倾向于偏向负采样模式 . 随着词汇量变大，分层 - softmax替代模式变慢，而负采样模式则不变 .

而且，拥有一个庞大，多样的语料库，以及所有有趣单词的许多微妙不同的用法示例，是真正好的单词向量的最重要的贡献者 .

因此，简单地通过在有限的训练时间内使较大的语料库易于管理，可以将负抽样视为间接地实现改进的单词向量 - 因为语料库大小是如此重要的因素 .

回复于 2024-05-11T15:35:20+08:00

相关问题