首页 文章
  • 14 votes
     answers
     views

    gensim如何计算doc2vec段落向量

    我要去看这篇论文http://cs.stanford.edu/~quocle/paragraph_vector.pdf 它说明了这一点 “对图矢量和单词向量进行平均或连接以预测上下文中的下一个单词 . 在实验中,我们使用连接作为组合向量的方法 . ” 连接或平均如何工作? 示例(如果第1段包含word1和word2): word1 vector =[0.1,0.2,0.3] word2 vec...
  • 1 votes
     answers
     views

    gensim Doc2Vec是否区分具有正面和负面背景的相同句子 .

    在学习Doc2Vec库时,我遇到了以下问题 . Do gensim Doc2Vec distinguish between the same Sentence with positive and negative context? 例如: 句子A:“我喜欢机器学习” 句子B:“我不喜欢机器学习” 如果我用doc2vec训练句子A和B并找到它们的向量之间的余弦相似性: 模型是否能够区分句子并使余...
  • 0 votes
     answers
     views

    使用单词向量的文档分类

    当我对用自然语言编写的文档进行分类和聚类时,我想出了一个问题...... 作为word2vec和手套,等等,在分布式空间中对单词进行矢量化,我想知道是否有任何推荐或常用于文档向量化的方法 USING word vectors. 例如, 文件1:“如果你追逐两只兔子,你将失去它们 . ” 可以被矢量化为, [0.1425,0.2718,0.8187,....,0.1011] 我知道一个也称为...
  • 5 votes
     answers
     views

    Pyspark如何从word2vec单词嵌入中计算Doc2Vec?

    我有一个pyspark数据框,其中包含大约300k个唯一行的语料库,每个行都有一个“doc”,每个文档包含几个文本句子 . 在处理之后,我有每行/ doc的200维矢量化表示 . 我的NLP流程: 使用正则表达式udf删除标点符号 用nltk雪球udf词干 Pyspark Tokenizer Word2Vec(ml.feature.Word2Vec,vectorSize = 200...
  • 1 votes
     answers
     views

    如何提取用于Doc2Vec的单词

    我正在使用推文准备Doc2Vec模型 . 每条推文的单词数组都被视为一个单独的文档,标记为“SENT_1”,SENT_2“等 . taggeddocs = [] for index,i in enumerate(cleaned_tweets): if len(i) > 2: # Non empty tweets sentence = TaggedDocument(wo...
  • 2 votes
     answers
     views

    嵌入Gensim Doc2Vec Tensorboard

    我在df中有一组文档 . 我正在使用 gensim Doc2Vec 将这些文档转换为向量: def read_corpus(documents): for i, plot in enumerate(documents): yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(p...

热门问题