我在手套矢量文件手套中发现"unk"令牌 . 下载了from https://nlp.stanford.edu/projects/glove/ . 其 Value 如下:
unk -0.79149 0.86617 0.11998 0.00092287 0.2776 -0.49185 0.50195 0.00060792 -0.25845 0.17865 0.2535 0.76572 0.50664 0.4025 -0.0021388 -0.28397 -0.50324 0.30449 0.51779 0.01509 -0.35031 -1.1278 0.33253 -0.3525 0.041326 1.0863 0.03391 0.33564 0.49745 -0.070131 -1.2192 -0.48512 -0.038512 -0.13554 -0.1638 0.52321 -0.31318 -0.1655 0.11909 -0.15115 -0.15621 -0.62655 -0.62336 -0.4215 0.41873 -0.92472 1.1049 -0.29996 -0.0063003 0.3954
它是用于未知单词的标记还是某种缩写?
2 回答
是的,这是用于未知单词的标记 .
unk
是unknown
或词汇表外的短名称 . 它可以在GloVe source code的几个地方找到 . 它是描述未知单词的标准符号 .The unk token in the pretrained GloVe files is not an unknown token!
请参阅google groups thread,其中Jeffrey Pennington(GloVe)的作者写道:
这是一个嵌入式学习,就像在语料库中出现“unk”一样(偶尔会发生!)
相反,Pennington建议(在同一篇文章中):
您可以使用以下代码执行此操作(应与任何预先训练的GloVe文件一起使用):
对于
glove.6B.50d.txt
,这给出了:并且因为使用较大的手套文件进行相当大的计算密集,我继续为您计算
glove.840B.300d.txt
的向量: