-
0 votesanswersviews
无法执行用户定义的函数($ anonfun $ createTransformFunc $ 1:(string)=> array)
org.apache.spark.SparkException:由于阶段失败导致作业中止:阶段2.0中的任务0失败4次,最近失败:阶段2.0中丢失任务0.3(TID 5,svr17933hw2288.hadoop.sh.ctripcorp.com,执行者1):org.apache.spark.SparkException:无法执行用户定义的函数($ anonfun $ createTransfo... -
2 votesanswersviews
性能调整火花中的LDA
我正在使用spark(通过Scala API)实现LDA模型,并使用不同数量的主题测试模型 . 它似乎一般工作正常,但遇到间歇性任务失败,我很确定与内存问题有关 . 我当前代码的相关部分如下 . 请注意,我正在从RDD的文本转储中加载我的数据,其中每个文档都是稀疏的mllib向量 . 所以我的 LDA_vectors 文件中的示例行如下所示: (7066346,(112312,[1,3,5,7,.... -
0 votesanswersviews
如何更改ldamodel的输出以返回每个群集中的句子而不是每个群集中的单词
我有一个句子列表,我想根据相似性聚类成组 . 我在 gensim 中使用 ldamodel ,它使用LDA来分割缩小句子,其中单词对主题概率分布最有用 . ldamodel = gensim.models.ldamodel.LdaModel(corpus,num_topics=2,id2word = dictionary, passes=20) print(ldamodel.print_topi... -
0 votesanswersviews
借助Latent Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性
鉴于索引或数据库包含大量(短)文档(约100万),我正在尝试为每个新传入的文档进行某种新颖性检测 . 我知道我必须计算新文档与索引中每个文档的相似性 . 如果相似性低于某个阈值,则可以将该文档视为新颖的 . 一种常见的方法 - 我想做的 - 是使用向量空间模型并计算余弦相似度(例如,通过使用Apache Lucene) . 但是这种方法有两个缺点: 1) 它的计算成本很高,并且它没有分别包含文档和... -
1 votesanswersviews
Spark 1.4 Mllib LDA topicDistributions()返回错误的文档数
我有一个LDA模型,运行在12,054个文档的语料库大小上,词汇大小为9,681个单词和60个集群 . 我试图通过调用.topicDistributions()或.javaTopicDistributions()来获取文档上的主题分布 . 这两种方法都会在文档上返回主题分布的rdd . 因此,根据我的理解,行数应该是文档数量,列数应该是主题数量 . 但是,当我在调用topicDistributio... -
13 votesanswersviews
Spark MLlib LDA,如何推断一个新的看不见的文件的主题分布?
我有兴趣使用Spark MLlib应用LDA主题建模 . 我已经检查了here中的代码和解释,但是我找不到如何使用模型然后在一个新的看不见的文档中找到主题分布 . -
2 votesanswersviews
SPARK MLlib检查点无法从本地磁盘中删除随机文件
我正在应用MLlib LDA进行主题建模 . 我正在设置lda参数如下: lda.setOptimizer(optimizer) .setK(params.k) .setMaxIterations(params.maxIterations) .setDocConcentration(params.docConcentration) .setTopicConcentration(pa... -
0 votesanswersviews
使用Spark,LDA预测新文档的准确性
我和Spark的Mllib合作,现在正在与LDA合作 . 但是当我使用Spark提供的代码(参见下文)来预测用于训练模型的Doc时,预测的结果(文档主题)与受过训练的文档主题的结果相反 . 我不知道结果是什么造成的 . 请求帮助,这是我的代码如下: 火车: $lda.run(corpus) 语料库是这样的RDD: $RDD[(Long, Vector)] Vector包含词汇,单词索引,word... -
2 votesanswersviews
在火花中为LDA准备数据
我正在努力实现Spark LDA模型(通过Scala API),并且我的数据必须采用格式化步骤 . 我的原始数据(存储在文本文件中)采用以下格式,基本上是令牌列表及其对应的文档 . 一个简化的例子: doc XXXXX term XXXXX 1 x 'a' x 1 x 'a' x 1 x 'b' x 2 x ... -
3 votesanswersviews
Spark LDA困境 - 预测和OOM问题
我正在评估Spark 1.6.0以构建和预测大型(数百万个文档,数百万个功能,数千个主题)LDA模型,这是我可以通过Yahoo!轻松完成的事情 . LDA . 从Java示例开始,我使用Distributed model / EM optimizer构建了一个100K doc / 600K feature / 250 topic / 100迭代模型 . 模型很好,所得到的主题是连贯的 . 然后,... -
2 votesanswersviews
Spark 1.5 MlLib LDA - 获取新文档的主题分发
Not a duplicate of this because I'm asking about what the input is, not what function to call, see below 我跟着this guide在Spark 1.5中创建了一个LDA模型 . 我在this question中看到要获取新文档的主题分布,我需要使用LocalLDAModel的topicDist... -
8 votesanswersviews
Spark中的潜在Dirichlet分配(LDA)
我正在尝试在Spark中编写一个progor来执行Latent Dirichlet分配(LDA) . Spark文档page提供了一个很好的示例,用于在示例数据上执行LDA . 以下是该计划 from pyspark.mllib.clustering import LDA, LDAModel from pyspark.mllib.linalg import Vectors # Load and... -
2 votesanswersviews
将主题映射回Spark LDA中的文档
我已经将一些Reuter新闻线文章(1986)加载到Spark 2.2中,并希望使用LDA进行一些主题学习 +--------------------+--------------------+----+ | title| body| id| +--------------------+--------------------+----+... -
0 votesanswersviews
来自RDD的PySpark LDA模型密集向量
我将我的数据设置为Apache Spark LDA模型 . 我正在进行的一个挂机是将列表转换为密集向量,因为我的RDD中有一些字母数字值 . 我在尝试运行示例代码时收到的错误是将字符串转换为float . 我知道这个错误,知道我对密集向量和浮点数的了解,但必须有一种方法将这些字符串值加载到LDA模型中,因为这是一个主题模型 . 我应该先说明我是Python和Spark的新手,所以如果我误解了某些东... -
3 votesanswersviews
如何计算vowpal wabbit中LDA模型的对数似然
我是典型的,普通的,日常的R用户 . 在R中,在lda包中非常有用 lda.collapsed.gibbs.sampler 使用折叠的Gibbs采样器来拟合潜在的Dirichlet分配(LDA)模型,并使用Gibbs采样的最后一次迭代的状态返回潜在参数的点估计 . 此函数还有一个很好的参数 compute.log.likelihood ,当设置为 TRUE 时,将使采样器在每次扫描变量后计算单词的... -
1 votesanswersviews
PySpark 按值分解密钥并保留 LDA 模型的重复项
我有元组的 RDD。我想爆炸键值对并保留重复项。本质上是键 x 值。我想将此阵列的 RDD 馈入 LDA 模型。我将在下面说明一些代码,在此先感谢您: 当前状态 > >> rdd4.take(2) [ [(u'11394071', 1), (u'11052103', 1), (u'11052101', 1)], [(u'11847272', 2), (u'999999', 1),...