-
0 votesanswersviews
处理Spark中的巨大(本地)矩阵
所以我说我有100万用户,我用'm using SparkML' s pyspark.ml.stat.Correlation.corr 来计算用户对之间的Pearson相关性 . 通过文档,这个方法returns: 包含向量列的相关矩阵的DataFrame . 此DataFrame包含单行和单个名称为'$ METHODNAME($ COLUMN)'的列 . 矩阵( DenseMatrix )... -
0 votesanswersviews
错误:scala决策树实现“重载方法值trainClassifier与替代”
我正在尝试使用以下方法实现决策树:https://spark.apache.org/docs/latest/mllib-decision-tree.html#examples我的示例代码是: val splits = predictionsNewdfNew.randomSplit(Array(0.7, 0.3)) val (trainingData, testData) = (splits(0),... -
2 votesanswersviews
PySpark中随机森林的单独树访问速度慢
我试图访问PySpark中随机森林模型的各个树元素 . 特别是,我试图从各个树中获得所有预测;我出于特殊原因需要这个 . 不幸的是,Spark ML API只暴露单个树而不是预测 . Pro:单个树可用于进行预测 . 骗局:看起来真的很慢 . 首先,我将一个简单的随机森林模型拟合到n = 200的数据集,其中70/30列车/测试分裂 . from pyspark.ml.linalg i... -
2 votesanswersviews
Spark上的时间序列预测
因此,我尝试使用Apache Spark进行时间序列数据的功耗预测 . 数据样本是: 03.01.15;22:30;236,25 03.01.15;22:15;240 04.01.15;16:00;243,775 等两年 . 我每15分钟观察一次 预测功耗的最佳方法是什么? 我尝试 LinearRegression , Decision trees 等 . 我总是得到巨大的MSE(788) . ... -
1 votesanswersviews
Spark ML-无法使用MatrixFactorizationModel加载模型
我正在尝试使用Spark协同过滤实现推荐系统 . 首先,我准备模型并保存到磁盘: MatrixFactorizationModel model = trainModel(inputDataRdd); model.save(jsc.sc(), "/op/tc/model/"); 当我使用单独的进程加载模型时,程序失败并出现以下异常:Code: static JavaSpar... -
2 votesanswersviews
无法运行ALS.train,错误:java.lang.IllegalArgumentException
我正在尝试运行ALS of PySpark . 我复制并粘贴了链接中提供的示例代码 . 但是,错误 java.lang.IllegalArgumentException 出现在以下行: model = ALS.train(ratings, rank, numIterations) 请问在这里我需要调查哪些可能的问题? 我的Spark版本是2.2.1,我的Java版本是9.0.4 . 但是,我不确定... -
0 votesanswersviews
ML管道上的火花驱动器内存问题
我正在运行logisticregression管道,并在这一行: model = pipeline.fit(train_data) 我在RDDLossFunction阶段重复得到以下错误: 文件“/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/base.py”,第132行,在适合文件中“/usr/spark-2.3.0/python/lib... -
1 votesanswersviews
使用Spark模糊连接多列
我有两个Spark RDD没有我需要加入的公共密钥 . 第一个RDD来自cassandra表a,其包含参考项集(id,item_name,item_type,item_size),例如:(1,'item 1','type_a',20) . 第二个RDD每晚从另一个系统导入,它包含大致相同的没有id的数据,并且是原始格式(raw_item_name,raw_type,raw_item_size),例... -
0 votesanswersviews
CrossValidator调整火花ML在params上失败“在模型保存中发现了一个无关的Param”
作为paramGrid的一部分,我在logistic回归中使用regParam运行spark ml交叉验证 . val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .build() val validator = new CrossValidator() .setEst... -
14 votesanswersviews
从DataFrame到RDD [LabeledPoint]
我正在尝试使用Apache Spark MLlib实现文档分类器,我遇到了一些代表数据的问题 . 我的代码如下: import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types.{StringType, StructField, StructType} import org.apache.spark.m... -
0 votesanswersviews
PySpark Mllib预测DataFrame中的所有行
我正在使用Spark Streaming从Kafka获取批量的JSON读数 . 生成的批次从RDD转换为数据帧 . 我的目标是对此数据帧的每一行进行分类,因此我使用VectorAssembler创建将传递给模型的功能: sqlContext = SQLContext(rdd.context) rawReading = sqlContext.jsonRDD(rdd) sensorReadings =... -
-3 votesanswersviews
用Pyspark训练随机森林回归模型
我正在研究一个情绪分析项目,使用从stocktwits中提取的json格式提取的数据 . 每个推文被分配一个情绪分数,这是一个介于0和1之间的浮点数 . 我想使用pyspark Mllib训练随机森林 . 以下是我的代码: 我首先将JSON文件中的数据读入pandas数据帧 然后将它们转换为SparkDF 之后我通过删除其他功能(标点符号和数字和停用词)处理了这些数据 然后我将它标... -
0 votesanswersviews
Apache Spark Worker Nodes无法找到我的应用程序类
在 standalone cluster mode 中使用 apache spark 1.6 ,在具有 Windows 7 OS 的 single machine 中使用 Master 和 few Workers . 我在java应用程序中创建了spark上下文并编写了几个类(例如 MyFunction ,扩展了 org.apache.spark.api.java.function.Functi... -
0 votesanswersviews
线程“main”中的异常java.lang.IllegalArgumentException:要求失败:未注册任何输出操作,因此无需执行任何操作
请问我有一个问题,当我执行spark-streaming的应用程序时,我在ssc.start()之前使用foreachRDD但是没办法 . 这是错误, 线程“main”中的异常java.lang.IllegalArgumentException:要求失败:没有注册输出操作,因此在org.apache.spark.streaming.DStreamGraph的scala.Predef $ .req... -
1 votesanswersviews
如何使用包含点/句点的列名创建spark数据帧?
我在列表中有数据,并希望将其转换为火花数据帧,其中一个列名称包含“ . ” 我编写了下面的代码,运行没有任何错误 . input_data = [('retail', '2017-01-03T13:21:00', 134), ('retail', '2017-01-03T13:21:00', 100)] rdd_schema = StructType([S... -
-1 votesanswersviews
IndexedRowMatrix的pyspark包装multiply()
IndexedRowMatrix 类的PySpark包装器不包含在它包含的Java实现中 . 我尝试将其手动添加到PySpark / MlLib / inalg / distributed.py,如下所示: def multiply(self, other): other_java_matrix = other._java_matrix_wrapper._java_model ja... -
2 votesanswersviews
在R中拟合Spark ML逻辑回归时的ArrayIndexOutOfBoundsException
我正在尝试使用 sparklyr::ml_logistic_regression 来拟合逻辑回归模型 . 我的训练数据集包含42,457行和785列;响应是 label 列中的0/1整数,所有剩余列都是0/1整数特征 . 我的源数据位于R数据框( df )中,我可以使用 glm(label ~ ., data = df, family = binomial) 在基础R中成功地拟合模型 . 不幸的是... -
0 votesanswersviews
流媒体Kmeans Spark JAVA
嗨基本上我们想用KAFKA SPARK Streaming在我们的论文中捕捉Twitter垃圾邮件 . 我想使用streamingKmeans . 但我有一个非常新手和严肃的问题: 在这个Spark StreamingKmeans scala示例(https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apac... -
36 votesanswersviews
从任务中调用 Java/Scala 函数
背景 我最初的问题是,为什么在地图函数中使用DecisionTreeModel.predict会引发异常?并与如何使用 MLlib 在 Spark 上生成元组(原始标签,预测标签)?有关 当我们使用 Scala API 推荐的方式并使用DecisionTreeModel获得RDD[LabeledPoint]的预测时,只需在RDD上进行映射: val labelAndPreds = testData... -
3 votesanswersviews
pyspark 中的稀疏向量 RDD
我已经使用 mllib 中的功能通过 Python/Pyspark 实现了此处介绍的 TF-IDF 方法: https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html 我有一套 150 个文本文档的培训套件,一个 80 个文本文档的测试套件。我已经为训练和测试 i.e 生成了一个哈希表 TF-IDF(稀疏向量的)RDD。袋中的... -
0 votesanswersviews
Spark ML管道使用情况
我创建了一个带有多个变换器的ML管道,包括在数据标签训练期间使用的StringIndexer . 然后,我存储生成的PipelineModel,稍后将用于数据准备和预测没有标签的数据集 . 问题是创建的管道模型的转换函数无法应用于新的DataFrame,因为它期望数据标签可用 . 我错过了什么?该怎么做? 注意:我的目标是拥有一个管道(即我想将各种转换和ML算法保持在一起) 谢谢! -
7 votesanswersviews
Apache Spark ALS建议方法
尝试使用Spark MLLib的ALS构建推荐系统 . 目前,我们正在尝试每天为所有用户预建建议 . 我们使用简单的隐式反馈和ALS . 问题是,我们有20M用户和30M产品,并且要调用主要的predict()方法,我们需要为用户和产品进行笛卡尔连接,这太大了,并且可能需要几天才能生成连接 . 有没有办法避免笛卡尔联合使流程更快? 目前我们有8个带64Gb RAM的节点,我认为它应该足够用于数据 ... -
0 votesanswersviews
Sparklyr错误:'na.omit'调用没有丢弃任何行
当我尝试将ml_decision_tree或ml_logistic_regresion与Sparklyr包一起使用时,我收到以下错误 . 我在cloudera集群上使用spark2.1.0 . > No rows dropped by 'na.omit' call. Error in > stop(simpleError(sprintf(fmt, ...), if (call.) &... -
1 votesanswersviews
在BinaryLogisticRegressionSummary中的areaUnderROC和Spark ML中的BinaryClassificationEvaluator有什么区别?
我在BinaryLogisticRegressionSummary和BinaryClassificationEvaluator中都看到了areaUnderROC . 它们之间有什么区别? 如果我的目标是在保留样本中找到AUC,我如何在BinaryLogisticRegressionSummary和BinaryClassificationEvaluator之间进行选择? 注意:我可以同时申请保留样本... -
0 votesanswersviews
使用MLlib从Spark的决策树中查找重要性值
我们使用MLlib为Decision Tree运行Spark 1.0或1.1 . 当我使用示例数据运行示例SCALA代码时,它没有错误,但我无法从结果中找到功能重要性 . 任何人都有关于如何获得 Value 的信息? -
0 votesanswersviews
我是新手,试图在scala中生成决策树模型并在java中使用该模型进行预测 . 如何在java中加载该模型?
我已将scala中生成的模型保存到光盘中 . val model = DecisionTree.trainClassifier(trainingData,numClasses,categoricalFeaturesInfo,impurity,maxDepth,maxBins)model.save(sc,“C:\ Model”) -
2 votesanswersviews
将spark决策树模型调试字符串转换为scala中的嵌套JSON
类似于引用here的树json解析,我试图在scala中实现决策树的简单可视化 . 它与数据库笔记本中的显示方法完全相同 . 我是scala的新手,并努力使逻辑正确 . 我知道我们必须进行递归调用来构建子节点并在显示最终预测值时中断 . 我在这里尝试使用下面提到的输入模型调试字符串的代码 def getStatmentType(x: String): (String, String) = { ... -
0 votesanswersviews
如何将决策树与CSV文件中的数据集一起使用? [关闭]
我'd like to use Spark MLlib' s org.apache.spark.mllib.tree.DecisionTree ,如下面的代码,但编译失败 . import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifier import org... -
1 votesanswersviews
Spark花了很长时间在HadoopRDD上:输入分裂
我正在一个大型libsvm文件上使用SGD运行逻辑回归 . 该文件大小约为10 GB,有4000万个培训示例 . 当我使用spark-submit运行我的scala代码时,我注意到spark花了很多时间记录这个: 18/02/07 04:44:50 INFO HadoopRDD:输入拆分:文件:/ ebs2 / preprocess / xaa:234881024 33554432 18/02/... -
7 votesanswersviews
将RDD [org.apache.spark.sql.Row]转换为RDD [org.apache.spark.mllib.linalg.Vector]
我对Spark和Scala相对较新 . 我从以下数据帧开始(单个列由密集的双打矢量组成): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vecto...