Java 学习之路

2 votes

answers

views

Apache Spark：设置执行程序实例

我使用参数在YARN上运行我的Spark应用程序：在spark-defaults.conf中： spark.master yarn-client spark.driver.cores 1 spark.driver.memory 1g spark.executor.instances 6 spark.executor.memory 1g 在yarn-site.xml中： yarn.nodeman...

apache-spark yarn executors apache-spark-1.6
0 votes

answers

views

如何调整apache spark 1.5.0的内存设置？

如何在spark 1.5.0上运行的应用程序调整堆内和堆外内存？通过使用“-XX PrintGCDetails -XX：PrintGCTimeStamps”，我注意到在从文件$ SPARK_HOME / work / application_id / stdout中检索到的GC报告中，JVM大约每隔1分钟就会保留GC . 虽然通过--executor-memory 50g选项和各种--conf s...

apache-spark memory garbage-collection jvm
0 votes

answers

views

Apache Spark：在Spark Standalone模式下禁用Spark Web UI

我在具有客户端部署模式的独立模式下运行Apache Spark 2.1.1 . I want to disable Spark web UI for master and all workers . 提到：https://spark.apache.org/docs/latest/configuration.html#spark-ui并在$ SPARK_HOME / conf / spark-...

scala apache-spark pyspark
2 votes

answers

views

火花 Actuator 记忆减少到1/2

我正在做一个像spark这样的spark-submit --class com.mine.myclass --master yarn-cluster --num-executors 3 --executor-memory 4G spark-examples_2.10-1.0.jar 在web ui中，我确实可以看到有3个 Actuator 节点，但每个节点都有2G内存 . 当我设置--execut...

apache-spark yarn executor
4 votes

answers

views

Spark：Executor Lost Failure（添加groupBy作业后）

我正在尝试在Yarn客户端上运行Spark工作 . 我有两个节点，每个节点都有以下配置 . 我得到“ExecutorLostFailure（遗失执行人1）” . 我已经尝试了大部分Spark调优配置 . 我已经减少了一个执行者丢失，因为最初我有6个 Actuator 失败 . 这些是我的配置（我的spark-submit）： HADOOP_USER_NAME = hdfs spark-subm...

scala hadoop apache-spark out-of-memory executors
0 votes

answers

views

hadoop / yarn / spark Actuator 内存增加

当我用 --master yarn-cluster --num-executors 7 --driver-memory 10g --executor-memory 16g --executor-cores 5 执行spark-submit命令时，我得到以下错误，我不知道在哪里更改堆大小，我怀疑Yarn配置文件在哪里，请指教 error Invalid maximum heap size: -Xmx...

apache-spark hadoop yarn
0 votes

answers

views

执行者可以在spark中共享核心吗？

在配置spark作业时，我有时会看到人们建议每个执行程序的核心数大于核心总数除以执行程序数 . 值得注意的是，在这个example中，@ 0x0FFF建议如下： --num-executors 4 --executor-memory 12g --executor-cores 4 如果我们计算 Actuator 核心的总数，我们得到 4 cores per executor * 4 execu...

memory parallel-processing apache-spark pyspark mesos
10 votes

answers

views

Spark如何将切片分解为任务/执行者/工作者？

我有一个2节点的Spark集群，每个节点有4个核心 . MASTER (Worker-on-master) (Worker-on-node1) Spark配置： slave：master，node1 SPARK_WORKER_INSTANCES = 1 我想了解Spark的 paralellize 行为 . sparkPi示例包含以下代码： val sli...

apache-spark
3 votes

answers

views

是否可以在一个Spark应用程序中为一个Spark应用程序启动多个Executor？

我们正在经历比SPARK_WORKER_CORES（设置为1）预期更多的核心运行 . 作为跟踪此问题的一部分，让我们考虑一下文档中的几个spark组件及其描述： Worker node 任何可以在群集中运行应用程序代码的节点 Executor 为工作节点上的应用程序启动的进程，该进程运行任务并将数据保存在内存或磁盘存储中 . 每个申请 has its own executors. 那么...

apache-spark
10 votes

answers

views

使用spark-submit， - length-executor-cores选项的行为是什么？

我正在使用python包装的C代码运行一个spark集群 . 我目前正在测试多线程选项的不同配置（在Python级别或Spark级别） . 我在HDFS 2.5.4集群上使用带有独立二进制文件的spark . 该集群目前由10个从站组成，每个从站有4个核心 . 从我所看到的，默认情况下，Spark每个节点启动4个从站（我一次有4个python在从属节点上工作） . 我怎样才能限制这个数字？我可以看...

multithreading hadoop apache-spark pyspark cpu-cores
8 votes

answers

views

执行程序丢失时Spark应用程序无法恢复

我在一个独立的集群中运行Spark . 与Master和2个工作节点在同一节点上的python驱动程序应用程序 . 业务逻辑是由在Worker节点上创建的执行程序运行的python代码 . 如果其中一个遗嘱执行人死亡，我最终会陷入困境 . 如果我强行杀死Worker 0上的一个后端进程，Master输出： 16/06/07 16:20:35 ERROR TaskSchedulerImpl: Los...

apache-spark pyspark
1 votes

answers

views

Spark Standalone 1.6 - 在AWS上为每个工作人员分配更多执行程序，但为所有群集分配更多内存

我在spark-env.sh中的spark独立集群中设置了以下配置 SPARK_WORKER_CORES = 15 SPARK_WORKER_INSTANCES = 10 在3个节点（3个工作者）1个主m4.4xlarge亚马逊ec2实例 . 我按照下面的步骤进行了操作 https://stackoverflow.com/questions/29955133/how-to-allocate-m...

amazon-web-services apache-spark amazon-ec2 executor
13 votes

answers

views

火花执行者失败了

我正在使用databricks spark cluster（AWS），并测试我的scala实验 . 使用LogisticRegressionWithLBFGS算法训练10 GB数据时遇到了一些问题 . 我遇到问题的代码块如下： import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS val algorithm...

scala apache-spark out-of-memory executor
1 votes

answers

views

无法设置比节点大的spark Actuator 编号

我按照http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/的说明进行操作我将--num-executors设置为13，即使我只有8个工作节点 . 在spark程序中，我明确设置了大量的分区 val myPartitioner = new HashPartitioner(20) spark...

apache-spark
0 votes

answers

views

Apache Spark - 保持执行程序数相同如果我增加执行程序核心数，应用程序性能会提高

我有集群有以下配置节点数 - 6，机器 - M3.2xlarge，每个节点的核心数 - 8，每个节点的内存数-30 GB，我正在运行spark应用程序，它正在从HDFS读取数据并发送到SNS / SQS . 我正在使用以下命令来运行此作业 spark-submit --class com.message.processor.HDFSMessageReader --master yarn...

java amazon-web-services apache-spark emr
3 votes

answers

views

Spark性能调优 - 执行程序数与内核数

我在Spark中有两个关于性能调优的问题：我理解在spark工作中控制并行性的关键之一是正在处理的RDD中存在的分区数，然后控制处理这些分区的执行程序和核心 . 我能否认为这是真的：执行者数量执行者核心数量应为<=分区数量 . 即，总是在一个 Actuator 的一个核心中处理一个分区 . 没有必要有更多的执行程序核心而不是分区的数量我明白每个执行程序拥有大量内核会对HDF...

apache-spark spark-streaming
0 votes

answers

views

spark.read中选项（“numPartitions”，x）的spark-submit中的num-executors，executor-cores，executor-memory有什么区别？ [重复]

这个问题在这里已有答案： Whats meaning of partitionColumn, lowerBound, upperBound, numPartitions parameters? 4个答案我在PostgreSQL DB上读取了一个RDBMS表： val dataDF = spark.read.format("jdbc").option("ur...

apache-spark apache-spark-sql
7 votes

answers

views

Spark流媒体1.6.0 - 执行者弹跳

我们正在使用在AWS EMR 4.3.x上运行的Spark Streaming 1.6.0，从而消耗Kinesis流中的数据 . 用于在Spark 1.3.1中正常工作迁移后，我们无法长时间承受负载 . Ganglia显示群集的已用内存不断增长，直到达到某个限制而没有GC . 之后，有几个非常长的微批次（数十分钟而不是几秒钟） . 然后Spark开始杀死并弹回执行程序（一遍又一遍地完成），基本...

apache-spark
1 votes

answers

views

Spark启动的执行程序多于指定的

我正在使用Pyspark在独立（客户端）模式下运行Spark 1.5.1 . 我正在尝试开始一个似乎内存繁重的工作（在python中，因此它不应该是执行程序 - 内存设置的一部分） . 我正在使用96核和128 GB RAM的机器上进行测试 . 我有一个master和worker正在运行，开始使用/ sbin中的start-all.sh脚本 . 这些是我在/ conf中使用的配置文件 . 火花de...

apache-spark memory-management pyspark distributed-computing bigdata
1 votes

answers

views

spark ui显示零执行者

我使用下面的选项运行spark 2.0.1 SparkSession.builder().master(master).appName(appName).config(conf).getOrCreate(); opts.put("spark.serializer","org.apache.spark.serializer.KryoSeriali...

amazon-web-services apache-spark
0 votes

answers

views

WhatsApp for Web如何从应用程序获取数据

应用程序是否直接向Web客户端发送数据？或者数据通过Web服务器传递到Web客户端？我不想知道Web客户端如何进行身份验证 . 如果Web客户端从PC发送图像/文本消息会发生什么 . Web客户端> Web服务器>应用程序> WhatsApp服务器>目标应用程序 . 或者类似的东西？ 2. Web客户端>应用程序> WhatsApp服务器>目标 . ...

java android ios websocket whatsapp
1 votes

answers

views

Apache Spark中的CPU使用率是否有限？

我最近发现，即使在 local[1] 模式下运行spark或使用带有1个 Actuator 和1个核心的Yarn，在UDF中添加并行计算（例如使用并行集合）也会提高性能 . 例如 . 在 local[1] 模式下，Spark-Jobs消耗尽可能多的CPU（即，如果我有8个内核，使用 top 测量，则为800％） . 这看起来很奇怪，因为我认为Spark（或纱线）限制了每个Spark应用程序的CPU...

scala apache-spark parallel-processing
1 votes

answers

views

Spark中有太多的执行程序吗？

我正在使用Spark / YARN集群来限制我可以分配到8GB内存和每个容器1个核心的资源，但我可以分配数百甚至数千个执行程序来运行我的应用程序 . 但是，由于驱动程序具有类似的资源限制（8GB内存，4个内核），我担心太多的执行程序可能会压倒驱动程序并导致超时 . 是否有一个经验法则可以调整驱动程序内存和内核以处理大量执行程序？

apache-spark yarn
0 votes

answers

views

Spark Submit Executors == Spark Shell任务？

我试图了解我的spark-submit和spark shell工作之间的速度差异 . 我启动shell或使用相同的资源分配提交，但我似乎得到了非常不同的性能 . 当我在shell中运行它需要~10分钟与小时火花提交 . 那么我的问题是，REPL进度条中显示的任务数量与spark提交中运行的执行程序数量相同吗？我看到每个人都有不同的数字，我很想知道我做错了什么 . 在shell中我开始使用它 --e...

apache-spark pyspark spark-submit
1 votes

answers

views

当总输入大小增加但每个任务输入大小保持不变时，为什么我会在我的火花作业中看到OOM？

我正在运行一个spark作业，它的输入已分为每个大小为10 MB的分区 . 当我以小的总输入大小运行这个火花作业时，我没有看到任何内存不足（OOM），但是当我运行这个总输入大小的火花作业时，我看到了OOM . 在这两种情况下，执行程序都分配了相同数量的内存 . 在这两种情况下，每个执行程序都有2个核心 . 在这两种情况下，每个任务都被赋予相同的输入大小，因为它被划分为大小为10 MB的分区 . 你...

apache-spark apache-spark-sql
3 votes

answers

views

Spark saveAsTextFile在接近完成时非常慢

我基本上使用spark进行排序 . spark程序将从HDFS读取，对复合键进行排序，然后将分区结果保存回HDFS . 伪代码是这样的： input = sc.textFile pairs = input.mapToPair sorted = pairs.sortByKey values = sorted.values values.saveAsTextFile 输入大小约为160G，...

performance apache-spark
0 votes

answers

views

Spark on Yarn：在客户端检查驱动程序内存？

我以为我理解了纱线架构上的火花，但现在我想知道：当我推出时 spark-submit --master yarn-cluster --class com.domain.xxx.ddpaction.DdpApp --num-executors 24 --deploy-mode cluster --driver-memory 4g --executor-memory 2g --executor...

apache-spark yarn
6 votes

answers

views

Spark使用哪个内存部分来计算不会持久化的RDD

我是Spark的新手，我理解Spark将执行程序内存划分为以下几部分： RDD Storage: 哪个Spark使用.persist（）或.cache（）来存储持久化的RDD，可以通过设置spark.storage.memoryFraction（默认为0.6）来定义 Shuffle and aggregation buffers: Spark用于存储随机输出 . 它可以使用spark.shuff...

apache-spark shuffle rdd
1 votes

answers

views

在Apache spark Memory MemoryStore中tryToPut是什么意思

我们在具有多个作业的独立火花簇上耗尽内存 . 在调查时我们发现了这些消息，并开始怀疑内存太少是免费的 16/09/23 12:30:38 INFO MemoryStore: Block broadcast_50802_piece0 stored as bytes in memory (estimated size 5.1 KB, free 233.5 KB) 16/09/23 12:30:38 I...

scala memory apache-spark
2 votes

answers

views

在Spark中设置“spark.memory.storageFraction”不起作用

我正在尝试调整Spark的内存参数 . 我试过了： sparkSession.conf.set("spark.memory.storageFraction","0.1") //sparkSession has been created 提交作业并检查Spark UI后 . 我发现“存储内存”仍然和以前一样 . 所以上面没有用 . 设置“spark.memo...

apache-spark

热门问题