Java 学习之路

0 votes

answers

views

针对1000万数据的Spark性能调整配置

我们在下面的硬件上运行用JAVA编写的SPARK应用程序：一个主节点两个工作节点（每个节点具有502.5 GB可用内存和88个内核（CPU）） . 使用 ./spark-submit 命令的以下配置： --executor-memory=30GB --driver-memory=20G --executor-cores=5 --driver-cores=5 我们正在使用 SPARK...

java performance apache-spark apache-spark-2.0
0 votes

answers

views

Pyspark：将UDF的结果迭代地写回数据帧并不会产生预期的结果

我仍然是pyspark的新手，我正在尝试评估函数并在UDF的帮助下迭代创建列 . 以下是功能： def get_temp(df): l=['temp1','temp2','temp3'] s=[0] pt = [0] start = [0] end = [0] cummulative_stat = [0] for p in xrange(1,...

apache-spark pyspark spark-dataframe pyspark-sql apache-spark-2.0
0 votes

answers

views

基于kafka分区的结构化流式读取

我正在使用spark结构化Streaming来读取来自Kafka主题的传入消息并根据传入消息写入多个镶木桌面所以我创建了一个readStream，因为Kafka源是常见的，并且每个镶木地板表在循环中创建单独的写入流 . 这工作正常但读取流正在创建瓶颈，因为每个writeStream都会创建一个readStream，并且无法缓存已读取的数据帧 . val kafkaDf=spark.readStre...

apache-kafka spark-structured-streaming apache-spark-2.0
0 votes

answers

views

Spark独立集群调优

我们在具有8个内核和50GB内存（单个工作线程）的单个节点上运行了spark 2.1.0独立集群 . 我们使用以下内存设置在集群模式下运行spark应用程序 - --driver-memory = 7GB (default - 1core is used) --worker-memory = 43GB (all remaining cores - 7 cores) 最近，我们经常观察执行者被驱动...

apache-spark apache-spark-sql apache-spark-2.0 apache-spark-standalone
0 votes

answers

views

Spark 2.0套装 jar

我在play-scala应用程序中从1.6升级到spark 2.0，我不太确定如何设置我想要的jar文件 . 以前会定义一个SparkConf，我可以调用的方法之一是setJars，它允许我指定我想要的所有jar文件 . 现在我使用SparkSession构建器构建我的spark conf和spark上下文，我没有看到任何类似的方法来指定jar文件？我怎样才能做到这一点？以下是我之前创建spar...

scala apache-spark jar apache-spark-2.0
2 votes

answers

views

apache spark中的聚合函数

我需要根据时间间隔聚合数据集1分钟 . 当我尝试这个时，它会抛出错误：我的数据集看起来像这样 scala> newVX.show +--------------------+-----+ | datetime|value| +--------------------+-----+ |2017-07-31 10:53:...| 0.26| |2017-07-31 10:...

scala apache-spark apache-spark-sql aggregate apache-spark-2.0
0 votes

answers

views

Spark com.databricks.spark.csv无法使用node-snappy加载snappy压缩文件

我在S3上有一些使用snappy压缩算法压缩的csv文件（使用 node-snappy 包） . 我喜欢使用 com.databricks.spark.csv 在spark中处理这些文件，但我一直收到无效的文件输入错误 . 码： file_df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', i...

apache-spark pyspark snappy databricks apache-spark-2.0
2 votes

answers

views

Hive / SparkSQL - 在表达式中从日期到时间戳键入强制

当我在Spark SQL中运行Hive查询时， LHS （ timestamp ） <= RHS （ date ）为相同的值 '2013-09-30' is not treating as equal . 而RHS中 TIMESTAMP 的 CAST 效果很好 . > SELECT CASE WHEN CAST(ADD_MONTHS(CAST('2013...

apache-spark hive apache-spark-sql apache-spark-2.0
7 votes

answers

views

SparkSession初始化错误 - 无法使用spark.read

我尝试创建一个独立的PySpark程序，它读取csv并将其存储在hive表中 . 我在配置Spark会话， Session 和上下文对象时遇到问题 . 这是我的代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, SparkSession from pyspark.sql.types ...

python apache-spark pyspark apache-spark-sql apache-spark-2.0
5 votes

answers

views

Spark 2.0内存分数

我正在使用Spark 2.0，该工作首先对输入数据进行排序并将其输出存储在HDFS上 . 我遇到了内存错误，解决方案是将“spark.shuffle.memoryFraction”的值从0.2增加到0.8，这解决了这个问题 . 但是在文档中我发现这是一个不推荐使用的参数 . 据我了解，它被“spark.memory.fraction”取代 . 如何在考虑HDFS的排序和存储的同时修改此参数？

memory apache-spark out-of-memory distributed-computing apache-spark-2.0
1 votes

answers

views

java.lang.IllegalArgumentException：使用SparkML不存在字段“label”

我使用Spark和Scala进行时间序列分析 . 我有一个从Cassandra数据库中获取的数据集，如下所示： scala> train.printSchema root |-- timestamp: timestamp (nullable = true) |-- vx: double (nullable = true) |-- speed: double (nullable = tr...

scala linear-regression apache-spark-ml apache-spark-dataset apache-spark-2.0
0 votes

answers

views

CrossValidator调整火花ML在params上失败“在模型保存中发现了一个无关的Param”

作为paramGrid的一部分，我在logistic回归中使用regParam运行spark ml交叉验证 . val paramGrid = new ParamGridBuilder() .addGrid(lr.regParam, Array(0.1, 0.01)) .build() val validator = new CrossValidator() .setEst...

scala apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0
2 votes

answers

views

Apache Spark 2.1 - 行对象的Scala冗余/重属性

我们在Scala 2.11中编写了一个spark应用程序，它运行在Spark 2.1.0独立集群上 . 根据设计/要求，我们构造了具有许多直接列的行对象，如100，并且嵌套列很少，其中一些嵌套列也很重，就像具有20k到30k的Sequence一样 . 还有匹配的案例类可以与Spark数据集一起使用 . For eg: Row(column_01, column_02... .......

apache-spark apache-spark-sql parquet apache-spark-2.0
1 votes

answers

views

获取分区拼花数据框的最新模式

我们开始使用火花和镶木地板文件在hadoop集群中收集数据......但是我们很难保证镶木地板模式将来不会改变 . 我们试图找到读取parquets的最佳方式，即使架构发生变化...... 我们要实施的规则是最新的镶木地板文件将是我们的参考... 我们做了不同的测试包括： spark.read.parquet（"test"）.filter（"year=2017 a...

apache-spark dataframe apache-spark-2.0
0 votes

answers

views

启用hivesupport后，在提交包含spark sql的spark脚本后找不到表

我想运行一个简单的spark脚本，它有一些sparksql查询basicaly Hiveql . 相应的表保存在spark-warehouse文件夹中 . 从pyspark.sql导入SparkSession from pyspark.sql import Row spark=SparkSession.builder.config("spark.sql.warehouse.dir&q...

pyspark apache-spark-sql pyspark-sql apache-spark-2.0
0 votes

answers

views

UnaryTransformer实例抛出ClassCastException

我需要创建我自己的UnaryTransformer实例，该实例接受Array [String]类型的Dataframe列，并且还应输出相同的类型 . 在尝试这样做时，我在Spark版本2.1.0上遇到了ClassCastException . 我已经整理了一个展示我案例的样本测试 . import org.apache.spark.SparkConf import org.apache.spark...

apache-spark apache-spark-2.0
1 votes

answers

views

Spark Executor在将数据框写入镶木地板时表现不佳

Spark版本：2.3 hadoop dist：azure Hdinsight 2.6.5平台：Azure存储：BLOB 集群中的节点：6个执行程序实例：每个执行程序6个核心：每个执行程序3个内存：8GB 尝试通过同一存储帐户上的火花数据框将天蓝色blob（wasb）中的csv文件（大小4.5g - 280 col，2.8 mil行）加载到镶木地板格式 . 我已经重新划分了不同大小的文件，即2...

performance apache-spark apache-spark-sql parquet apache-spark-2.0
0 votes

answers

views

如何将DataFrame持久化到Hive表？

我在Cloudera QuickStart VM上使用CentOS . 我按照另一个问题How to save DataFrame directly to Hive?创建了一个受sbt管理的Spark应用程序 . build.sbt libraryDependencies += "org.apache.spark" %% "spark-core" % &qu...

apache-spark hive hdfs apache-spark-2.0
0 votes

answers

views

Apache apive 2.1.1 on apache spark 2.0

当在蜂房中连接我的直线时，它无法创建火花客户端 select count(*) from student; Query ID = hadoop_20180208184224_f86b5aeb-f27b-4156-bd77-0aab54c0ec67 Total jobs = 1 Launching Job 1 out of 1 In order to change the average load ...

hadoop hive apache-spark-2.0 beeline

热门问题