-
0 votesanswersviews
Spark SASL没有使用纱线加工emr
首先,我想说的是,我所看到的唯一解决此问题的方法是:Spark 1.6.1 SASL . 但是,在添加spark和yarn认证的配置时,它仍然无法正常工作 . 下面是我在amazon的emr上使用spark-submit进行火花提升的火花配置: SparkConf sparkConf = new SparkConf().setAppName("secure-test"); ... -
3 votesanswersviews
Spark job yarn错误退出代码:11
也就是说,我已经空出来了这个错误 . 我们是spark,hadoop和yarn的新手,但是我们正在努力推出的工作中找不到任何错误 . 请参阅下面的错误 . **这是我们看到的间歇性问题 . 我们可以开始工作一次并且工作正常,下一次迭代我们必须启动它3次才能运行它 . 已经尝试在两次运行之间等待1s到1天,没有区别 . 2015-12-22 11:37:57,163 WARN nodemanage... -
0 votesanswersviews
当任务组节点丢失时EMR SPARK作业失败的原因是什么?
我使用AWS emr-5.0.0运行包含以下注释的小型集群: 1 Master - AWS on demand实例 1核心 - AWS on demand实例 2任务 - AWS SPOT实例 所有这些都是x3.xlarge机器 . 我运行了两个阶段的python spark应用程序 . 问题是当我手动终止其中一个TASK实例(或由于现货价格变化而终止)时,整个火花作业都会... -
0 votesanswersviews
Hadoop distcp作业已成功,但由ApplicationMaster杀死的attempt_xxx
运行distcp作业我遇到以下问题:几乎所有的map任务都标记为成功,但注意说Container已被杀死 . 在联机界面上, Map 作业的日志显示:Progress 100.00 State SUCCEEDED 但是注意它几乎每次尝试(~200)容器被ApplicationMaster杀死 . ApplicationMaster杀死的容器 . 根据要求杀死容器 . 退出代码是143 在与该尝试... -
3 votesanswersviews
在失败或中止时重新运行Spark作业
我期待配置或参数,以便在通过Yarn提交任何故障时自动重启Spark Jobs . 我知道任务在失败时自动重启 . 我非常期待能够重新开始整个工作的 YARN or Spark configuration . 现在,如果我们的任何Job因任何问题而中止,我们必须手动重新启动它,这会导致长数据队列处理,因为这些设计可以近乎实时地工作 . 目前的配置: #!/bin/bash export SPA... -
0 votesanswersviews
Spark任务默认超时
我有一个spark应用程序,其中驱动程序启动很少的任务,并且在每个任务中都是VoidFunction,我有一个长期运行的无限循环 . 我将推测执行设置为false . 一段时间(Timeout)或任务无限运行后,火花会杀死我的任务吗?如果任务将在某个时间后被杀死(那个持续时间是什么)以及如何无限长时间地运行任务? -
2 votesanswersviews
Spark Docker - 无法访问资源管理器的Web UI - Mac PC
无法访问资源管理器web ui - Spark docker容器 - Mac PC 这些是我做的步骤: docker pull sequenceiq / spark:1.6.0 docker run -it -p 8088:8088 -p 8042:8042 -p 4040:4040 -h sandbox sequenceiq / spark:1.6.0 bash 我用这个测试:(运行很好)... -
7 votesanswersviews
异常:java.lang.Exception:当使用master 'yarn'运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR . 在火花中
我是新的apache-spark . 我已经在spark独立模式下测试了一些应用程序 . 但是我想运行应用程序纱线模式 . 我在windows中运行apache-spark 2.1.0 . 这是我的代码 c:\spark>spark-submit2 --master yarn --deploy-mode client --executor-cores 4 --jars C:\Dependen... -
0 votesanswersviews
hadoop with yarn resourcemanager和nodemanager命令未找到
在此先感谢您的帮助 ! 当我启动%HADOOP_HOME%\ sbin目录\启动dfs.cmd,它的工作原理,然后当我做%HADOOP_HOME%\ sbin目录\启动yarn.cmd这是行不通的,它打开两个窗口说:“命令的ResourceManager找不到”和“命令”nodemanager“找不到 . 我一直在努力解决这个问题,但没有找到任何解决办法,并尝试了很多东西 . 这是我的yarn-s... -
0 votesanswersviews
Java hadoop api YarnClient没有“init()/ start()”函数?
我试过像这样的maven repo: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-yarn-common</artifactId> <version>2.7.2</version&... -
0 votesanswersviews
如何将Spark Client submitApplication转换为Yarn Rest API?
目前,我有一个使用 spark.deploy.yarn.Client 向Yarn提交申请的工作代码实现 . 聚合此客户端需要的所有参数很复杂,但应用程序的提交很简单: ClientArguments cArgs = new ClientArguments(args.toArray(new String[0])); client = new Client(cArgs, sparkConf); app... -
152 votesanswersviews
Apache Spark:核心数与执行者数量
我试图了解在YARN上运行Spark作业时内核数量和执行程序数量之间的关系 . 测试环境如下: 数据节点数:3 数据节点机器规格: CPU:Core i7-4790(核心数:4,线程数:8) 内存:32GB(8GB x 4) 硬盘:8TB(2TB x 4) 网络:1Gb Spark版本:1.0.0 Hadoop版本:2.4.0(Hortonworks HDP 2.1... -
1 votesanswersviews
hadoop纱线单节点性能调整
我在我的Ubuntu VM上安装了hadoop 2.5.2单模式,即4核,每核3GHz; 4G内存 . 此VM不用于 生产环境 ,仅用于演示和学习 . 然后,我使用python编写了一个简单的map-reduce应用程序,并使用此应用程序处理49 xmls . 所有这些xml文件都是小型的,每个文件都有数百行 . 所以,我期待一个快速的过程 . 但是,对我来说很惊讶,完成这项工作需要20多分钟(工... -
1 votesanswersviews
Hadoop 2.6.0官方示例:Yarn(MR2)比单节点设置中的Map Reduce(MR1)慢得多
我开始玩hadoop 2.6.0,并根据official documentation Build 一个伪分布式单节点系统 . 当我运行简单的Map Reduce(MR1)示例(请参阅“伪分布式操作 - >执行”)时,总执行时间约为 . 7秒更确切地说,bash的时间给出: real 0m6.769s user 0m7.375s sys 0m0.400s 当我通过Yarn(MR2)运行相同... -
0 votesanswersviews
如何在hadoop中设置默认java opts而不在运行时重叠
我打算在运行YARN应用程序时将默认gc收集器设置为 -XX:+UseSerialGC . 我试图在hadoop-env.sh中设置此参数,既不是 HADOOP_OPTS 也不是 HADOOP_CLIENT_OPTS 它是否有效: //hadoop-env.sh export HADOOP_OPTS="$HADOOP_OPTS -Dmapreduce.map.java.opts='-X... -
0 votesanswersviews
与阿帕奇长颈鹿的大图的4个配置文件演算
对于我的计算机科学硕士论文,我使用giraph-1.3.0-snapshot(使用-Phadoop_yarn配置文件编译)和hadoop-2.8.4成功实现了4-profile calculus(https://arxiv.org/abs/1510.02215) . 我使用t2.2xlarge(32GB,8CPU)实例在amazon ec2上配置了一个由1个namenode和5个datanode组... -
0 votesanswersviews
在hadoop YARN上分配了多少内存和vcore?
我想问一下,在yarn-site.xml和mapred-site.xml中的hadoop yarn中都有像最小和最大内存或vcore这样的属性 . 我有点混淆,实际上实际上分配了多少内存和vcore,因为在配置上我们只写最小值和最大值而不是实际大小 . 如果我有内存16 GB和4 vcore和这样的配置: yarn.scheduler.minimum-allocation-mb = 1024 ya... -
0 votesanswersviews
纱线在节点上分配太多的vcores
我在yarn-site.xml中将最大分配vcores设置为1,将物理核心数设置为2.所有节点都相同 . 但是,有些人,YARN会为一个节点分配3个容器 . 它报告该节点上有-1个vcores . 最终发生的事情是nodemanager关闭该节点,并且作业失败 . 你如何阻止YARN过度分配vcores?还有其他节点可用,使用0个vcores . 我已经指定了可以分配的最小和最大vcores数量以... -
2 votesanswersviews
在YARN中,容器尺寸如何确定?
在YARN应用程序中,ApplicationMaster如何决定容器的大小?我知道有控制最小内存分配,vcores比率等的参数 . 但是应用程序大师如何理解它需要如此大量的内存和特定作业的大量CPU - MapReduce / Spark? -
1 votesanswersviews
Spark增加了纱线模式下执行程序的数量
我在4节点集群上运行Spark over Yarn . 节点中每台机器的配置为128GB内存,每节点24核CPU . 我使用这个命令运行Spark spark-shell --master yarn --num-executors 19 --executor-memory 18g --executor-cores 4 --driver-memory 4g 但Spark最多只能启动16个执行程序 ... -
4 votesanswersviews
使用Hadoop 2.7.4资源问题配置Yarn
我按照tutorial配置了hadoop 2.7.4 . DataNode,NameNode和SecondaryNameNode正常工作 . 但是当我运行yarn时,NodeManager会关闭以下消息 org.apache.hadoop.yarn.exceptions.YarnRuntimeException:org.apache.hadoop.yarn.exceptions.YarnRun... -
1 votesanswersviews
hadoop nodemanager无法启动,slave不满足最小分配
运行start-all.sh时,我的slave1和slave2在jps中找不到nodemanager 使用VM virtualbox master在Ubuntu 16.04上工作 yunchi@master:~$ jps 15920 Jps 15505 SecondaryNameNode 15659 ResourceManager 15293 NameNode SLAVE1 yunchi@sla... -
1 votesanswersviews
docker中的纱线 - __spark_libs__.zip不存在
我查看了this StackOverflow帖子,但他们没有帮助我 . I am trying to get Yarn working on an existing cluster. So far we have been using spark standalone manger as our resource allocator and it has been working as expec... -
1 votesanswersviews
使用Spark和Yarn进行资源分配
我在纱线客户端模式下使用Zeppelin 0.7.3和Spark 2.3 . 我的设置是: 火花: spark.driver.memory 4096m spark.driver.memoryOverhead 3072m spark.executor.memory 4096m spark.executor.memoryOverhead 3072m spark.executor.cores 3 spa... -
1 votesanswersviews
如何编写可以使用“hadoop -jar”运行的自包含YARN应用程序?
我必须在Hadoop集群中运行一些无法用Map / Reduce表示的东西 . 我想过为它写一个YARN应用程序 . 我发现Spring Yarn用于spring-boot并遵循Getting Started(参见链接) . 这项工作到目前为止,但有一些缺陷: 在本教程中,生成了三个JAR(一个用于客户端,一个用于appmaster,一个用于容器),在提交应用程序时必须处于特定的文件夹结构中 ... -
1 votesanswersviews
Hadoop API Jars组织
我是初学者Hadoop开发人员,并且在某种程度上已经使用map-reduce应用程序大约几个月,但我对maven依赖项和jar导入的工作原理感到困惑 . 为了编写完整的map-reduce程序,我需要在pom文件中包含哪些依赖项 . 到目前为止,我很惭愧地说我只是在左右添加依赖项,直到我的导入不再导致错误 . 我尝试在线查看,但我永远无法得到一个可靠的答案 . 到目前为止,这就是我所知道的 这是我... -
6 votesanswersviews
Spark GraphX内存错误SparkListenerBus(java.lang.OutOfMemoryError:Java堆空间)
Apache Spark(Graphx)上的内存不足有问题 . 应用程序运行,但一段时间后关闭 . 我使用Spark 1.2.0 . 集群具有足够的内存和多个内核 . 我没有使用GraphX的其他应用程序,运行没有问题 . 应用使用Pregel . 我在Hadoop YARN模式下提交申请: HADOOP_CONF_DIR = / etc / hadoop / conf spark-submit ... -
9 votesanswersviews
使用--master yarn-cluster运行spark-submit:spark-assembly问题
我在kerberized集群上运行Spark 1.1.0,HDP 2.1 . 我可以使用--master yarn-client成功运行spark-submit,并将结果正确写入HDFS,但是,该作业未显示在Hadoop All Applications页面上 . 我想使用--master yarn-cluster运行spark-submit但是我继续收到此错误: appDiagnostics: ... -
1 votesanswersviews
从纱线集群(linux)上的客户端(窗口)执行spark:文件系统“C”的错误没有
我想在我的hadoop集群中部署一个spark应用程序(只是一个简单的Hello World应用程序) . 在我的Windows机器上使用spark submit我用--master yarn在客户端模式下执行应用程序 . 与hadoop集群的连接是成功的,因为它可以在集群的日志文件中看到 . (hadoop conf文件已从群集下载并保存在客户端Windows机器上,已设置环境变量) . 使用... -
0 votesanswersviews
纱线应用程序已完成并已成功但未执行(通过YARN API REST提交)
在此example之后,我能够向YARN提交Spark应用程序(使用REST API),但在完成作业后没有输出 . 它只是Scala中的一个WordCount示例,它应该在System.out中打印计数并在HDFS中创建一个具有相同计数的textFile,这两件事情都不会发生,并且作业中只有4秒钟 . 我正在使用CDH 5.8 . 这是我发送的application.json提交应用程序: { ...