如何为未知单词获取随机word2vec向量？

提问于 2024-05-04T06:08:09+08:00

浏览次

0

我在列车数据上训练word2vec，但是测试数据中有一些词不在列车数据中，那么如何生成与原始数据分布或数字范围相匹配的单词矢量？

1 回答

1

您可以在词汇表中列出非常用单词列表并对其进行平均，以获得未知单词的近似单词向量 .

要么

假设你的目标未知单词是 w ，它在上下文 c-2 c-1 w c1 c2 中，其中 c-2 ， c-1 ， c1 和 c2 是上下文单词 . 您可以将所有上下文单词的嵌入平均值作为未知单词的良好近似值 .

回复于 2024-05-04T06:08:09+08:00

相关问题