-
0 votesanswersviews
针对1000万数据的Spark性能调整配置
我们在下面的硬件上运行用JAVA编写的SPARK应用程序: 一个主节点 两个工作节点(每个节点具有502.5 GB可用内存和88个内核(CPU)) . 使用 ./spark-submit 命令的以下配置: --executor-memory=30GB --driver-memory=20G --executor-cores=5 --driver-cores=5 我们正在使用 SPARK... -
0 votesanswersviews
Pyspark:将UDF的结果迭代地写回数据帧并不会产生预期的结果
我仍然是pyspark的新手,我正在尝试评估函数并在UDF的帮助下迭代创建列 . 以下是功能: def get_temp(df): l=['temp1','temp2','temp3'] s=[0] pt = [0] start = [0] end = [0] cummulative_stat = [0] for p in xrange(1,... -
0 votesanswersviews
基于kafka分区的结构化流式读取
我正在使用spark结构化Streaming来读取来自Kafka主题的传入消息并根据传入消息写入多个镶木桌面所以我创建了一个readStream,因为Kafka源是常见的,并且每个镶木地板表在循环中创建单独的写入流 . 这工作正常但读取流正在创建瓶颈,因为每个writeStream都会创建一个readStream,并且无法缓存已读取的数据帧 . val kafkaDf=spark.readStre... -
0 votesanswersviews
Spark独立集群调优
我们在具有8个内核和50GB内存(单个工作线程)的单个节点上运行了spark 2.1.0独立集群 . 我们使用以下内存设置在集群模式下运行spark应用程序 - --driver-memory = 7GB (default - 1core is used) --worker-memory = 43GB (all remaining cores - 7 cores) 最近,我们经常观察执行者被驱动... -
0 votesanswersviews
Spark 2.0套装 jar
我在play-scala应用程序中从1.6升级到spark 2.0,我不太确定如何设置我想要的jar文件 . 以前会定义一个SparkConf,我可以调用的方法之一是setJars,它允许我指定我想要的所有jar文件 . 现在我使用SparkSession构建器构建我的spark conf和spark上下文,我没有看到任何类似的方法来指定jar文件?我怎样才能做到这一点? 以下是我之前创建spar... -
2 votesanswersviews
apache spark中的聚合函数
我需要根据时间间隔聚合数据集1分钟 . 当我尝试这个时,它会抛出错误: 我的数据集看起来像这样 scala> newVX.show +--------------------+-----+ | datetime|value| +--------------------+-----+ |2017-07-31 10:53:...| 0.26| |2017-07-31 10:... -
0 votesanswersviews
Spark com.databricks.spark.csv无法使用node-snappy加载snappy压缩文件
我在S3上有一些使用snappy压缩算法压缩的csv文件(使用 node-snappy 包) . 我喜欢使用 com.databricks.spark.csv 在spark中处理这些文件,但我一直收到无效的文件输入错误 . 码: file_df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', i... -
2 votesanswersviews
Hive / SparkSQL - 在表达式中从日期到时间戳键入强制
当我在Spark SQL中运行Hive查询时, LHS ( timestamp ) <= RHS ( date )为相同的值 '2013-09-30' is not treating as equal . 而RHS中 TIMESTAMP 的 CAST 效果很好 . > SELECT CASE WHEN CAST(ADD_MONTHS(CAST('2013... -
7 votesanswersviews
SparkSession初始化错误 - 无法使用spark.read
我尝试创建一个独立的PySpark程序,它读取csv并将其存储在hive表中 . 我在配置Spark会话, Session 和上下文对象时遇到问题 . 这是我的代码: from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, SparkSession from pyspark.sql.types ... -
5 votesanswersviews
Spark 2.0内存分数
我正在使用Spark 2.0,该工作首先对输入数据进行排序并将其输出存储在HDFS上 . 我遇到了内存错误,解决方案是将“spark.shuffle.memoryFraction”的值从0.2增加到0.8,这解决了这个问题 . 但是在文档中我发现这是一个不推荐使用的参数 . 据我了解,它被“spark.memory.fraction”取代 . 如何在考虑HDFS的排序和存储的同时修改此参数? -
1 votesanswersviews
java.lang.IllegalArgumentException:使用SparkML不存在字段“label”
我使用Spark和Scala进行时间序列分析 . 我有一个从Cassandra数据库中获取的数据集,如下所示: scala> train.printSchema root |-- timestamp: timestamp (nullable = true) |-- vx: double (nullable = true) |-- speed: double (nullable = tr... -
0 votesanswersviews
CrossValidator调整火花ML在params上失败“在模型保存中发现了一个无关的Param”
作为paramGrid的一部分,我在logistic回归中使用regParam运行spark ml交叉验证 . val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .build() val validator = new CrossValidator() .setEst... -
2 votesanswersviews
Apache Spark 2.1 - 行对象的Scala冗余/重属性
我们在Scala 2.11中编写了一个spark应用程序,它运行在Spark 2.1.0独立集群上 . 根据设计/要求,我们构造了具有许多直接列的行对象,如100,并且嵌套列很少,其中一些嵌套列也很重,就像具有20k到30k的Sequence一样 . 还有匹配的案例类可以与Spark数据集一起使用 . For eg: Row(column_01, column_02... ....... -
1 votesanswersviews
获取分区拼花数据框的最新模式
我们开始使用火花和镶木地板文件在hadoop集群中收集数据......但是我们很难保证镶木地板模式将来不会改变 . 我们试图找到读取parquets的最佳方式,即使架构发生变化...... 我们要实施的规则是最新的镶木地板文件将是我们的参考... 我们做了不同的测试包括: spark.read.parquet("test").filter("year=2017 a... -
0 votesanswersviews
启用hivesupport后,在提交包含spark sql的spark脚本后找不到表
我想运行一个简单的spark脚本,它有一些sparksql查询basicaly Hiveql . 相应的表保存在spark-warehouse文件夹中 . 从pyspark.sql导入SparkSession from pyspark.sql import Row spark=SparkSession.builder.config("spark.sql.warehouse.dir&q... -
0 votesanswersviews
UnaryTransformer实例抛出ClassCastException
我需要创建我自己的UnaryTransformer实例,该实例接受Array [String]类型的Dataframe列,并且还应输出相同的类型 . 在尝试这样做时,我在Spark版本2.1.0上遇到了ClassCastException . 我已经整理了一个展示我案例的样本测试 . import org.apache.spark.SparkConf import org.apache.spark... -
1 votesanswersviews
Spark Executor在将数据框写入镶木地板时表现不佳
Spark版本:2.3 hadoop dist:azure Hdinsight 2.6.5平台:Azure存储:BLOB 集群中的节点:6个执行程序实例:每个执行程序6个核心:每个执行程序3个内存:8GB 尝试通过同一存储帐户上的火花数据框将天蓝色blob(wasb)中的csv文件(大小4.5g - 280 col,2.8 mil行)加载到镶木地板格式 . 我已经重新划分了不同大小的文件,即2... -
0 votesanswersviews
如何将DataFrame持久化到Hive表?
我在Cloudera QuickStart VM上使用CentOS . 我按照另一个问题How to save DataFrame directly to Hive?创建了一个受sbt管理的Spark应用程序 . build.sbt libraryDependencies += "org.apache.spark" %% "spark-core" % &qu... -
0 votesanswersviews
Apache apive 2.1.1 on apache spark 2.0
当在蜂房中连接我的直线时,它无法创建火花客户端 select count(*) from student; Query ID = hadoop_20180208184224_f86b5aeb-f27b-4156-bd77-0aab54c0ec67 Total jobs = 1 Launching Job 1 out of 1 In order to change the average load ...