首页 文章

gensim如何计算doc2vec段落向量

提问于
浏览
14

我要去看这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf

它说明了这一点

“对图矢量和单词向量进行平均或连接以预测上下文中的下一个单词 . 在实验中,我们使用连接作为组合向量的方法 . ”

连接或平均如何工作?

示例(如果第1段包含word1和word2):

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?

也是从这张图片:

据说:

段落标记可以被认为是另一个单词 . 它充当记忆,记住当前上下文中缺少的内容 - 或段落的主题 . 出于这个原因,我们经常将此模型称为段落向量的分布式存储模型(PV-DM) .

段落标记是否等于段落向量等于 on

enter image description here

2 回答

  • 4

    串联或平均如何工作?

    你的平均水平是正确的 . 串联是: [0.1,0.2,0.3,0.4,0.5,0.6] .

    段落标记是否等于段落向量等于?

    “段落标记”被映射到称为“段落向量”的向量 . 它与标记“on”不同,并且与标记“on”映射到的单词vector不同 .

  • 5

    一系列文本的简单(有时是有用的)向量是文本's words'向量的总和或平均值 - 但这不是'Paragraph Vectors'文章的'Paragraph Vector' .

    相反,段落向量是另一个向量,与单词向量类似地训练,也可以调整以帮助进行单词预测 . 将这些矢量与单词矢量组合(或交织)以馈送预测模型 . 也就是说,平均(在DM模式下)包括PV和字向量 - 它不是从字向量组成PV .

    在图中, on 是预测的目标字,在该图中由紧密相邻的单词和真实单词的完整示例_1184777_窗口组合 .

相关问题