-
13 votesanswersviews
Spark MLlib LDA,如何推断一个新的看不见的文件的主题分布?
我有兴趣使用Spark MLlib应用LDA主题建模 . 我已经检查了here中的代码和解释,但是我找不到如何使用模型然后在一个新的看不见的文档中找到主题分布 . -
3 votesanswersviews
Spark LDA困境 - 预测和OOM问题
我正在评估Spark 1.6.0以构建和预测大型(数百万个文档,数百万个功能,数千个主题)LDA模型,这是我可以通过Yahoo!轻松完成的事情 . LDA . 从Java示例开始,我使用Distributed model / EM optimizer构建了一个100K doc / 600K feature / 250 topic / 100迭代模型 . 模型很好,所得到的主题是连贯的 . 然后,... -
1 votesanswersviews
潜在的Dirichlet分配与先前的主题词
Context 我正试图从Scikit-Learn's decomposition module中使用Latent Dirichlet allocation从一组文本中提取主题 . 除了找到/选择的主题词的质量之外,这非常有效 . 在Li et al (2017)的一篇文章中,作者描述了使用先前的主题词作为LDA的输入 . 他们手动选择4个主题和与这些主题相关/属于的主要词 . 对于这些单词,他们... -
13 votesanswersviews
使用scikit-learn矢量化器和词汇表与gensim
我正在尝试使用gensim主题模型回收scikit-learn矢量化器对象 . 原因很简单:首先,我已经有了大量的矢量化数据;第二,我更喜欢scikit-learn矢量化器的界面和灵活性;第三,尽管使用gensim的主题建模速度非常快,但根据我的经验计算其词典( Dictionary() )相对较慢 . 之前已经提出了类似的问题,especially here和here,桥接解决方案是gensim... -
0 votesanswersviews
用gensim学习印刷双字母
我想使用gensim从语料库中学习双字母组合,然后只打印学到的双字母组合 . 我没见过这样做的例子 . 帮助赞赏 from gensim.models import Phrases documents = ["the mayor of new york was there", "human computer interaction and machine learni... -
0 votesanswersviews
稀疏矩阵上的潜在Dirichlet分配(
我正在尝试使用Python上的lda 1.0.2包运行主题建模 . 我的输入是类'scipy.sparse.csr.csr_matrix'的稀疏矩阵 . 目前似乎这不起作用,并引发以下错误: lda_class.fit(data)Traceback(最近一次调用last):File“C:\ Users \ gw \ AppData \ Local \ Continuum \ Anaconda3 ... -
2 votesanswersviews
基于主题的推荐系统的用户配置文件
我正在尝试提出一个基于主题的推荐系统来向用户推荐相关的文本文档 . 我在维基百科语料库上使用gensim训练了一个潜在的语义索引模型 . 这使我可以轻松地将文档转换为LSI主题分发 . 我现在的想法是以同样的方式代表用户 . 然而,当然,用户具有观看文章的历史以及文章的评级 . 所以我的问题是:如何代表用户? 我的想法如下:将用户表示为所有查看文档的聚合 . 但如何考虑评级? 有任何想法吗? 谢谢...