Java 学习之路

0 votes

answers

views

处理Spark中的巨大（本地）矩阵

所以我说我有100万用户，我用'm using SparkML' s pyspark.ml.stat.Correlation.corr 来计算用户对之间的Pearson相关性 . 通过文档，这个方法returns：包含向量列的相关矩阵的DataFrame . 此DataFrame包含单行和单个名称为'$ METHODNAME（$ COLUMN）'的列 . 矩阵（ DenseMatrix ）...

python apache-spark pyspark apache-spark-mllib apache-spark-ml
0 votes

answers

views

错误：scala决策树实现“重载方法值trainClassifier与替代”

我正在尝试使用以下方法实现决策树：https://spark.apache.org/docs/latest/mllib-decision-tree.html#examples我的示例代码是： val splits = predictionsNewdfNew.randomSplit(Array(0.7, 0.3)) val (trainingData, testData) = (splits(0),...

scala apache-spark-mllib decision-tree
2 votes

answers

views

PySpark中随机森林的单独树访问速度慢

我试图访问PySpark中随机森林模型的各个树元素 . 特别是，我试图从各个树中获得所有预测;我出于特殊原因需要这个 . 不幸的是，Spark ML API只暴露单个树而不是预测 . Pro：单个树可用于进行预测 . 骗局：看起来真的很慢 . 首先，我将一个简单的随机森林模型拟合到n = 200的数据集，其中70/30列车/测试分裂 . from pyspark.ml.linalg i...

apache-spark pyspark apache-spark-mllib apache-spark-ml
2 votes

answers

views

Spark上的时间序列预测

因此，我尝试使用Apache Spark进行时间序列数据的功耗预测 . 数据样本是： 03.01.15;22:30;236,25 03.01.15;22:15;240 04.01.15;16:00;243,775 等两年 . 我每15分钟观察一次预测功耗的最佳方法是什么？我尝试 LinearRegression ， Decision trees 等 . 我总是得到巨大的MSE（788） . ...

apache-spark machine-learning time-series apache-spark-mllib apache-spark-ml
1 votes

answers

views

Spark ML-无法使用MatrixFactorizationModel加载模型

我正在尝试使用Spark协同过滤实现推荐系统 . 首先，我准备模型并保存到磁盘： MatrixFactorizationModel model = trainModel(inputDataRdd); model.save(jsc.sc(), "/op/tc/model/"); 当我使用单独的进程加载模型时，程序失败并出现以下异常：Code: static JavaSpar...

java apache-spark apache-spark-mllib
2 votes

answers

views

无法运行ALS.train，错误：java.lang.IllegalArgumentException

我正在尝试运行ALS of PySpark . 我复制并粘贴了链接中提供的示例代码 . 但是，错误 java.lang.IllegalArgumentException 出现在以下行： model = ALS.train(ratings, rank, numIterations) 请问在这里我需要调查哪些可能的问题？我的Spark版本是2.2.1，我的Java版本是9.0.4 . 但是，我不确定...

apache-spark pyspark apache-spark-mllib
0 votes

answers

views

ML管道上的火花驱动器内存问题

我正在运行logisticregression管道，并在这一行： model = pipeline.fit(train_data) 我在RDDLossFunction阶段重复得到以下错误：文件“/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/base.py”，第132行，在适合文件中“/usr/spark-2.3.0/python/lib...

apache-spark pyspark apache-spark-mllib
1 votes

answers

views

使用Spark模糊连接多列

我有两个Spark RDD没有我需要加入的公共密钥 . 第一个RDD来自cassandra表a，其包含参考项集（id，item_name，item_type，item_size），例如：（1，'item 1'，'type_a'，20） . 第二个RDD每晚从另一个系统导入，它包含大致相同的没有id的数据，并且是原始格式（raw_item_name，raw_type，raw_item_size），例...

join apache-spark apache-spark-mllib fuzzy
0 votes

answers

views

CrossValidator调整火花ML在params上失败“在模型保存中发现了一个无关的Param”

作为paramGrid的一部分，我在logistic回归中使用regParam运行spark ml交叉验证 . val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .build() val validator = new CrossValidator() .setEst...

scala apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0
14 votes

answers

views

从DataFrame到RDD [LabeledPoint]

我正在尝试使用Apache Spark MLlib实现文档分类器，我遇到了一些代表数据的问题 . 我的代码如下： import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types.{StringType, StructField, StructType} import org.apache.spark.m...

scala apache-spark apache-spark-mllib
0 votes

answers

views

PySpark Mllib预测DataFrame中的所有行

我正在使用Spark Streaming从Kafka获取批量的JSON读数 . 生成的批次从RDD转换为数据帧 . 我的目标是对此数据帧的每一行进行分类，因此我使用VectorAssembler创建将传递给模型的功能： sqlContext = SQLContext(rdd.context) rawReading = sqlContext.jsonRDD(rdd) sensorReadings =...

python-2.7 apache-spark spark-streaming spark-dataframe apache-spark-mllib
-3 votes

answers

views

用Pyspark训练随机森林回归模型

我正在研究一个情绪分析项目，使用从stocktwits中提取的json格式提取的数据 . 每个推文被分配一个情绪分数，这是一个介于0和1之间的浮点数 . 我想使用pyspark Mllib训练随机森林 . 以下是我的代码：我首先将JSON文件中的数据读入pandas数据帧然后将它们转换为SparkDF 之后我通过删除其他功能（标点符号和数字和停用词）处理了这些数据然后我将它标...

apache-spark pyspark apache-spark-mllib random-forest
0 votes

answers

views

Apache Spark Worker Nodes无法找到我的应用程序类

在 standalone cluster mode 中使用 apache spark 1.6 ，在具有 Windows 7 OS 的 single machine 中使用 Master 和 few Workers . 我在java应用程序中创建了spark上下文并编写了几个类（例如 MyFunction ，扩展了 org.apache.spark.api.java.function.Functi...

java apache-spark apache-spark-mllib
0 votes

answers

views

线程“main”中的异常java.lang.IllegalArgumentException：要求失败：未注册任何输出操作，因此无需执行任何操作

请问我有一个问题，当我执行spark-streaming的应用程序时，我在ssc.start（）之前使用foreachRDD但是没办法 . 这是错误，线程“main”中的异常java.lang.IllegalArgumentException：要求失败：没有注册输出操作，因此在org.apache.spark.streaming.DStreamGraph的scala.Predef $ .req...

scala apache-spark spark-streaming rdd apache-spark-mllib
1 votes

answers

views

如何使用包含点/句点的列名创建spark数据帧？

我在列表中有数据，并希望将其转换为火花数据帧，其中一个列名称包含“ . ” 我编写了下面的代码，运行没有任何错误 . input_data = [('retail', '2017-01-03T13:21:00', 134), ('retail', '2017-01-03T13:21:00', 100)] rdd_schema = StructType([S...

apache-spark pyspark apache-spark-sql spark-dataframe apache-spark-mllib
-1 votes

answers

views

IndexedRowMatrix的pyspark包装multiply（）

IndexedRowMatrix 类的PySpark包装器不包含在它包含的Java实现中 . 我尝试将其手动添加到PySpark / MlLib / inalg / distributed.py，如下所示： def multiply(self, other): other_java_matrix = other._java_matrix_wrapper._java_model ja...

python apache-spark pyspark apache-spark-mllib
2 votes

answers

views

在R中拟合Spark ML逻辑回归时的ArrayIndexOutOfBoundsException

我正在尝试使用 sparklyr::ml_logistic_regression 来拟合逻辑回归模型 . 我的训练数据集包含42,457行和785列;响应是 label 列中的0/1整数，所有剩余列都是0/1整数特征 . 我的源数据位于R数据框（ df ）中，我可以使用 glm(label ~ ., data = df, family = binomial) 在基础R中成功地拟合模型 . 不幸的是...

r apache-spark-mllib sparklyr
0 votes

answers

views

流媒体Kmeans Spark JAVA

嗨基本上我们想用KAFKA SPARK Streaming在我们的论文中捕捉Twitter垃圾邮件 . 我想使用streamingKmeans . 但我有一个非常新手和严肃的问题：在这个Spark StreamingKmeans scala示例（https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apac...

java scala spark-streaming k-means apache-spark-mllib
36 votes

answers

views

从任务中调用 Java/Scala 函数

背景我最初的问题是，为什么在地图函数中使用DecisionTreeModel.predict会引发异常？并与如何使用 MLlib 在 Spark 上生成元组(原始标签，预测标签)？有关当我们使用 Scala API 推荐的方式并使用DecisionTreeModel获得RDD[LabeledPoint]的预测时，只需在RDD上进行映射： val labelAndPreds = testData...

python scala apache-spark pyspark apache-spark-mllib
3 votes

answers

views

pyspark 中的稀疏向量 RDD

我已经使用 mllib 中的功能通过 Python/Pyspark 实现了此处介绍的 TF-IDF 方法： https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html 我有一套 150 个文本文档的培训套件，一个 80 个文本文档的测试套件。我已经为训练和测试 i.e 生成了一个哈希表 TF-IDF(稀疏向量的)RDD。袋中的...

apache-spark pyspark sparse-matrix apache-spark-mllib tf-idf
0 votes

answers

views

Spark ML管道使用情况

我创建了一个带有多个变换器的ML管道，包括在数据标签训练期间使用的StringIndexer . 然后，我存储生成的PipelineModel，稍后将用于数据准备和预测没有标签的数据集 . 问题是创建的管道模型的转换函数无法应用于新的DataFrame，因为它期望数据标签可用 . 我错过了什么？该怎么做？注意：我的目标是拥有一个管道（即我想将各种转换和ML算法保持在一起）谢谢！

apache-spark apache-spark-sql spark-dataframe apache-spark-mllib
7 votes

answers

views

Apache Spark ALS建议方法

尝试使用Spark MLLib的ALS构建推荐系统 . 目前，我们正在尝试每天为所有用户预建建议 . 我们使用简单的隐式反馈和ALS . 问题是，我们有20M用户和30M产品，并且要调用主要的predict（）方法，我们需要为用户和产品进行笛卡尔连接，这太大了，并且可能需要几天才能生成连接 . 有没有办法避免笛卡尔联合使流程更快？目前我们有8个带64Gb RAM的节点，我认为它应该足够用于数据 ...

apache-spark machine-learning bigdata recommendation-engine apache-spark-mllib
0 votes

answers

views

Sparklyr错误：'na.omit'调用没有丢弃任何行

当我尝试将ml_decision_tree或ml_logistic_regresion与Sparklyr包一起使用时，我收到以下错误 . 我在cloudera集群上使用spark2.1.0 . > No rows dropped by 'na.omit' call. Error in > stop(simpleError(sprintf(fmt, ...), if (call.) &...

r hadoop cloudera apache-spark-mllib sparklyr
1 votes

answers

views

在BinaryLogisticRegressionSummary中的areaUnderROC和Spark ML中的BinaryClassificationEvaluator有什么区别？

我在BinaryLogisticRegressionSummary和BinaryClassificationEvaluator中都看到了areaUnderROC . 它们之间有什么区别？如果我的目标是在保留样本中找到AUC，我如何在BinaryLogisticRegressionSummary和BinaryClassificationEvaluator之间进行选择？注意：我可以同时申请保留样本...

apache-spark pyspark apache-spark-mllib
0 votes

answers

views

使用MLlib从Spark的决策树中查找重要性值

我们使用MLlib为Decision Tree运行Spark 1.0或1.1 . 当我使用示例数据运行示例SCALA代码时，它没有错误，但我无法从结果中找到功能重要性 . 任何人都有关于如何获得 Value 的信息？

scala apache-spark decision-tree apache-spark-mllib
0 votes

answers

views

我是新手，试图在scala中生成决策树模型并在java中使用该模型进行预测 . 如何在java中加载该模型？

我已将scala中生成的模型保存到光盘中 . val model = DecisionTree.trainClassifier（trainingData，numClasses，categoricalFeaturesInfo，impurity，maxDepth，maxBins）model.save（sc，“C：\ Model”）

java scala apache-spark-mllib
2 votes

answers

views

将spark决策树模型调试字符串转换为scala中的嵌套JSON

类似于引用here的树json解析，我试图在scala中实现决策树的简单可视化 . 它与数据库笔记本中的显示方法完全相同 . 我是scala的新手，并努力使逻辑正确 . 我知道我们必须进行递归调用来构建子节点并在显示最终预测值时中断 . 我在这里尝试使用下面提到的输入模型调试字符串的代码 def getStatmentType(x: String): (String, String) = { ...

json scala apache-spark-mllib decision-tree
0 votes

answers

views

如何将决策树与CSV文件中的数据集一起使用？ [关闭]

我'd like to use Spark MLlib' s org.apache.spark.mllib.tree.DecisionTree ，如下面的代码，但编译失败 . import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifier import org...

scala apache-spark apache-spark-sql apache-spark-mllib decision-tree
1 votes

answers

views

Spark花了很长时间在HadoopRDD上：输入分裂

我正在一个大型libsvm文件上使用SGD运行逻辑回归 . 该文件大小约为10 GB，有4000万个培训示例 . 当我使用spark-submit运行我的scala代码时，我注意到spark花了很多时间记录这个： 18/02/07 04:44:50 INFO HadoopRDD：输入拆分：文件：/ ebs2 / preprocess / xaa：234881024 33554432 18/02/...

scala apache-spark rdd apache-spark-mllib hadoop-partitioning
7 votes

answers

views

将RDD [org.apache.spark.sql.Row]转换为RDD [org.apache.spark.mllib.linalg.Vector]

我对Spark和Scala相对较新 . 我从以下数据帧开始（单个列由密集的双打矢量组成）： scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: org.apache.spark.sql.DataFrame = [features: vecto...

scala apache-spark rdd spark-dataframe apache-spark-mllib

热门问题