我在列车数据上训练word2vec,但是测试数据中有一些词不在列车数据中,那么如何生成与原始数据分布或数字范围相匹配的单词矢量?
您可以在词汇表中列出非常用单词列表并对其进行平均,以获得未知单词的近似单词向量 .
要么
假设你的目标未知单词是 w ,它在上下文 c-2 c-1 w c1 c2 中,其中 c-2 , c-1 , c1 和 c2 是上下文单词 . 您可以将所有上下文单词的嵌入平均值作为未知单词的良好近似值 .
w
c-2 c-1 w c1 c2
c-2
c-1
c1
c2
1 回答
您可以在词汇表中列出非常用单词列表并对其进行平均,以获得未知单词的近似单词向量 .
要么
假设你的目标未知单词是
w
,它在上下文c-2 c-1 w c1 c2
中,其中c-2
,c-1
,c1
和c2
是上下文单词 . 您可以将所有上下文单词的嵌入平均值作为未知单词的良好近似值 .