Java 学习之路

14 votes

answers

views

gensim如何计算doc2vec段落向量

我要去看这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf 它说明了这一点 “对图矢量和单词向量进行平均或连接以预测上下文中的下一个单词 . 在实验中，我们使用连接作为组合向量的方法 . ” 连接或平均如何工作？示例（如果第1段包含word1和word2）： word1 vector =[0.1,0.2,0.3] word2 vec...

nlp vectorization gensim word2vec doc2vec
1 votes

answers

views

gensim Doc2Vec是否区分具有正面和负面背景的相同句子 .

在学习Doc2Vec库时，我遇到了以下问题 . Do gensim Doc2Vec distinguish between the same Sentence with positive and negative context? 例如：句子A：“我喜欢机器学习” 句子B：“我不喜欢机器学习” 如果我用doc2vec训练句子A和B并找到它们的向量之间的余弦相似性：模型是否能够区分句子并使余...

python nlp gensim doc2vec
0 votes

answers

views

使用单词向量的文档分类

当我对用自然语言编写的文档进行分类和聚类时，我想出了一个问题...... 作为word2vec和手套，等等，在分布式空间中对单词进行矢量化，我想知道是否有任何推荐或常用于文档向量化的方法 USING word vectors. 例如，文件1：“如果你追逐两只兔子，你将失去它们 . ” 可以被矢量化为， [0.1425,0.2718,0.8187，....，0.1011] 我知道一个也称为...

machine-learning nlp vectorization word2vec doc2vec
5 votes

answers

views

Pyspark如何从word2vec单词嵌入中计算Doc2Vec？

我有一个pyspark数据框，其中包含大约300k个唯一行的语料库，每个行都有一个“doc”，每个文档包含几个文本句子 . 在处理之后，我有每行/ doc的200维矢量化表示 . 我的NLP流程：使用正则表达式udf删除标点符号用nltk雪球udf词干 Pyspark Tokenizer Word2Vec（ml.feature.Word2Vec，vectorSize = 200...

apache-spark nlp pyspark word2vec doc2vec
1 votes

answers

views

如何提取用于Doc2Vec的单词

我正在使用推文准备Doc2Vec模型 . 每条推文的单词数组都被视为一个单独的文档，标记为“SENT_1”，SENT_2“等 . taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence = TaggedDocument(wo...

python nlp gensim doc2vec
2 votes

answers

views

嵌入Gensim Doc2Vec Tensorboard

我在df中有一组文档 . 我正在使用 gensim Doc2Vec 将这些文档转换为向量： def read_corpus(documents): for i, plot in enumerate(documents): yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(p...

python tensorflow gensim tensorboard doc2vec

gensim如何计算doc2vec段落向量

gensim Doc2Vec是否区分具有正面和负面背景的相同句子 .

使用单词向量的文档分类

Pyspark如何从word2vec单词嵌入中计算Doc2Vec？

如何提取用于Doc2Vec的单词

嵌入Gensim Doc2Vec Tensorboard

热门问题