gensim如何计算doc2vec段落向量-Java 学习之路

我要去看这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf

它说明了这一点

“对图矢量和单词向量进行平均或连接以预测上下文中的下一个单词 . 在实验中，我们使用连接作为组合向量的方法 . ”

连接或平均如何工作？

示例（如果第1段包含word1和word2）：

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?

也是从这张图片：

据说：

段落标记可以被认为是另一个单词 . 它充当记忆，记住当前上下文中缺少的内容 - 或段落的主题 . 出于这个原因，我们经常将此模型称为段落向量的分布式存储模型（PV-DM） .

段落标记是否等于段落向量等于 on ？

enter image description here

2 回答

4

串联或平均如何工作？

你的平均水平是正确的 . 串联是： [0.1,0.2,0.3,0.4,0.5,0.6] .

段落标记是否等于段落向量等于？

“段落标记”被映射到称为“段落向量”的向量 . 它与标记“on”不同，并且与标记“on”映射到的单词vector不同 .

回复于 2024-04-24T19:04:42+08:00
5

一系列文本的简单（有时是有用的）向量是文本's words'向量的总和或平均值 - 但这不是'Paragraph Vectors'文章的'Paragraph Vector' .

相反，段落向量是另一个向量，与单词向量类似地训练，也可以调整以帮助进行单词预测 . 将这些矢量与单词矢量组合（或交织）以馈送预测模型 . 也就是说，平均（在DM模式下）包括PV和字向量 - 它不是从字向量组成PV .

在图中， on 是预测的目标字，在该图中由紧密相邻的单词和真实单词的完整示例_1184777_窗口组合 .

回复于 2024-04-24T19:04:42+08:00

gensim如何计算doc2vec段落向量

2 回答

相关问题