首页 文章
  • 8 votes
     answers
     views

    PySpark在YARN集群上分布式处理

    我使用YARN作为资源管理器,在Cloudera CDH5.3集群上运行Spark . 我正在用Python(PySpark)开发Spark应用程序 . 我可以提交作业并且它们成功运行,但是它们似乎永远不会在多台机器上运行(我提交的本地机器) . 我尝试了各种选项,比如将--deploy-mode设置为cluster,将master设置为yarn-client和yarn-cluster,但它似乎永...
  • 0 votes
     answers
     views

    Hadoop MapReduce grep因连接错误超时[AWS单节点集群]

    我在AWS上设置了单节点Hadoop集群,配置了Hadoop并启动了HDFS / Yarn守护进程 . HDFS运行良好,但MapReduce示例(我试过grep和randomwriter)超时连接错误 . Versions: Ubuntu 16.04 Hadoop 2.7.2 Java 1.8.0_101 / etc / hosts:删除了localhost映射,添加了PTMaster # ...
  • 1 votes
     answers
     views

    Hadoop / Yarn(v0.23.3)Psuedo-Distributed Mode设置::无作业节点

    我只是在Psuedo-Distributed模式下设置Hadoop / Yarn 2.x(特别是v0.23.3) . 我按照一些博客和网站的说明进行操作,这些博客和网站或多或少提供相同的处方设置 . 我也遵循了O'reilly的第3版Hadoop书(具有讽刺意味的是最没用的) . 问题: After running "start-dfs.sh" and then "s...
  • 7 votes
     answers
     views

    Hadoop端口澄清

    我正在学习hadoop并且对默认端口和位置感到困惑 . 当我点击URL:localhost:50070给出了hdfs信息的结果 . 在hadoop文档中,以下是一些提到的端口 . hdfs-default.xml dfs.datanode.http.address 0.0.0.0:50075 dfs.datanode.address 0.0.0.0:50010 dfs.namenod...
  • 0 votes
     answers
     views

    适用于4GB服务器的示例Hadoop配置?

    我目前正在尝试在只有4GB RAM的虚拟服务器上设置一个小型Hadoop演示系统 . 我知道,对于Hadoop来说,4GB并不是很多 - 但这就是我现在所拥有的全部内容 . 服务器应该运行HDFS,YARN和Spark(在Yarn上)以及一些与Hadoop无关的其他东西 . 所以我的想法是为操作系统和其他东西保留2GB,然后为Hadoop进程留下2GB . 不幸的是,我正在努力寻找适合这种情况的配...
  • 0 votes
     answers
     views

    调整Hadoop以获得低资源

    我想测试一些计算机的集群:每个计算机有2个核心和256 MB的RAM . 通过关注Cloudera的tutorial,我已经尝试指导Hadoop 2.6.0关于我的低资源NodeManagers(Ubuntu 14.04) . 我有以下配置: mapred-site.xml : <configuration> <property> ...
  • 2 votes
     answers
     views

    资源管理器没有节点

    编辑:我看了YARN Resourcemanager not connecting to nodemanager,解决方案对我不起作用 . 我附加了节点管理器日志的一部分,其中 Build 了与资源管理器的连接: [main] client.RMProxy (RMProxy.java:createRMProxy(98)) - Connecting to ResourceManager at /0....
  • 0 votes
     answers
     views

    mapreduce job失败了“org.apache.commons.codec.binary.Base64.encodeBase64String([B] Ljava / lang / String;”

    我在我的集群上运行了3个节点上的MR作业,每个节点有128GB和40个核心 . 群集信息:10.8.12.16:namenode active,datanode,alluxio master,alluxio worker 10.8.12.17:namenode standby,datanode,alluxio master standby,alluxio worker 10.8.12.18:dat...
  • 0 votes
     answers
     views

    Ubuntu 16.04上的Hadoop 2.8.1 - 资源管理器在NameNode上崩溃

    得到了以下问题:我有一个hadoop集群(2.8.1,java 8),我的资源管理器在大约30秒-1分钟或我尝试将任何文件添加到hdfs后仍然保持中断 . 我有3个VPS(Ubuntu 16.04.2 LTS),1个用于Namenode,2个用于数据节点 . 这些主要是为了玩,所以只有20GB的空间(我相信应该足以看到mapreduce工作的一些微小的影响) 我的文件内容: 每台服务器上的/ et...
  • 0 votes
     answers
     views

    Hadoop设置可以利用群集的所有资源

    我 Build 了一个包含4个节点的集群(3个从节点,1个主节点和从节点),每个节点都有 8Gb RAM 8vCores 所以,我的集群完全拥有32Gb RAM和32vCores . 我的配置如下: hdfs-site.xml yarn-site.xml mapred-site.xml 当我使用输入文件151Mb运行Hadoop流时,Yarn显示如下信息: 似乎我的设...
  • 3 votes
     answers
     views

    Spark shell无法连接到YARN

    我尝试用 spark-shell 开始: spark-shell --master yarn-client 然后我进入了外壳 . 但几秒钟后,我在shell中得到了这个: WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkYarnAM@10.0.2.15:38171] has fail...
  • 1 votes
     answers
     views

    当火花在客户端模式下任务数量太大时,容器无法启动

    我在运行一些复杂的sql语句的hive上测试spark-sql . 当我的最大工作数太大时,在我的情况下超过70000,应用程序将停留一段时间,然后抛出以下错误消息: 6/07/06 17:53:20 WARN YarnSchedulerBackend $ YarnSchedulerEndpoint:标记为失败的容器:container_1466092136376_0229_01_000002在...
  • 1 votes
     answers
     views

    在Hadoop集群环境中的Mapreduce作业上拒绝连接

    我已经 Build 了一个4节点Hadoop集群,其中包含一个主节点和三个数据节点 . 在我尝试执行map reduce工作之前,这一切似乎都运行良好 . Jps(主节点): [root@master logs]# jps 26967 SecondaryNameNode 25720 JobHistoryServer 26778 NameNode 27115 ResourceManager 2783...
  • 1 votes
     answers
     views

    MapReduce作业未在HADOOP 2.6.0(多节点集群)上运行

    我已经在4台机器(1个主机和3个从机)上成功完成了Hadoop 2.6.0多节点集群设置 . 但是,当我试图在群集上运行一个简单的字数统计工作时,它就会卡住 . 它被困在这里: :~$ hadoop jar ~/MY_MAP_JARS/wordcount_f2.jar /input/crime /output/cc1 18/07/31 02:25:04 INFO client.RMProxy: C...
  • 2 votes
     answers
     views

    为什么MapReduce Map内存大于群集上的Block大小?

    在Hadoop纱线下面是观察: a)对于每个InputSplit或块,将触发新 Map . b)群集的典型块大小为128 MB . c)在大多数集群中,MapReduce.map.memory.mb的配置大于1 GB . 事实上,Cloudera建议的块大小为128 MB,MapReduce.map.memory.mb为1 GB 当块大小只有128 MB时,为什么我们需要为 Map 内存(Map...
  • 5 votes
     answers
     views

    在Hadoop yarn 2.6.0上运行giraph

    我想用纱线在 hadoop 2.6.0 上使用Giraph . 我已经设法通过删除 yarn profile 中的 <munge.symbols> 中的 STATIC_SASL_SYMBOL 来构建它 . 使用命令: sudo mvn -Phadoop_yarn -Dhadoop.version=2.6.0 -DskipTests package 然后我've setup a sin...
  • 2 votes
     answers
     views

    Spark over Yarn - 不正确的Application Master选择

    我正尝试使用以下命令使用Spark over Yarn发布一些作业(这只是一个示例,实际上我使用的是不同数量的内存和内核): ./bin/spark-submit --class org.mypack.myapp \ --master yarn-cluster \ --num-executors 3 \ --driver-memory 4g \ --executor...
  • 1 votes
     answers
     views

    Hadoop:启动Datanode似乎没有响应

    我的测试环境 我正在尝试将基于3个节点的 Hadoop Cluster 部署到我的测试环境中: 1 Namenode(master:172.30.10.64) 2 Datanodes(slave1:172.30.10.72和slave2:172.30.10.62) 我将具有主属性的文件配置到我的namenode中,并将slave属性配置到我的datananode中 . Master的文...
  • 0 votes
     answers
     views

    纱线杀死容器超出虚拟内存限制

    我试图在Raspberry Pi 3上运行单节点hadoop集群 . 我可以运行 hdfs dfs -ls / ,所以我知道至少hdfs已启动,但当我运行示例wordcount作业作为冒烟测试时,看看集群是否是工作正常,我收到以下错误: Container ... is running beyond virtual memory limits. Current usage: 33.8 MB of ...
  • 2 votes
     answers
     views

    如何在Hadoop 2 YARN中计算并发#maper和#reduce?

    我已经搜索了一段时间,我发现使用hadoop2纱线的MapReduce群集具有以下数量的并发映射并减少每个节点: 并发映射#= yarn.nodemanager.resource.memory-mb / mapreduce.map.memory.mb并发减少#= yarn.nodemanager.resource.memory-mb / mapreduce.reduce.memory.mb 但是,...
  • 0 votes
     answers
     views

    纱线容器lauch失败异常和mapred-site.xml配置

    我的Hadoop集群中有7个节点[每个节点有8GB RAM和4VCPU],1个Namenode 6个数据节点 . EDIT-1@ARNON: 我按照链接,根据我的节点上的硬件配置疯狂计算,并在我的问题中添加了更新mapred-site和yarn-site.xml文件 . 仍然我的应用程序崩溃与相同的执行 我的mapreduce应用程序有34个输入拆分,块大小为128MB . mapred-site...
  • 7 votes
     answers
     views

    Pyspark采用纱线集群模式

    有没有办法在不使用spark-submit脚本的情况下使用yarn-cluster模式运行pyspark脚本?我需要这样,因为我会将此代码集成到django Web应用程序中 . 当我尝试在纱线群集模式下运行任何脚本时,我收到以下错误: org.apache.spark.SparkException: Detected yarn-cluster mode, but isn't running on...
  • 3 votes
     answers
     views

    如何防止EMR Spark步骤重试?

    我有一个AWS EMR集群(emr-4.2.0,Spark 1.5.2),我从aws cli提交步骤 . 我的问题是,如果Spark应用程序失败,那么YARN正在尝试再次运行应用程序(在相同的EMR步骤下) . 我怎么能阻止这个? 我试图设置 --conf spark.yarn.maxAppAttempts=1 ,它在环境/火花属性中正确设置,但它不会阻止YARN重新启动应用程序 .
  • 3 votes
     answers
     views

    Spark作业提交:AWS EMR步骤或命令行spark-submit

    我正在使用yarn作为主集群部署模式运行AWS EMR集群 . 我阅读的所有教程都使用AWS CLI在所谓的“Spark Steps”中运行spark-submit,使用类似于以下的命令: aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOn...
  • 0 votes
     answers
     views

    如何激发提交作业到其他集群上的纱线?

    我有一个安装了spark的docker容器,我正在尝试使用marathon将作业提交到其他集群上的yarn . docker容器具有yarn和hadoop conf dir的导出值,yarn文件还包含emr master ip的正确地址,但我不确定它作为localhost的位置? ENV YARN_CONF_DIR="/opt/yarn-site.xml" ENV HADOO...
  • 0 votes
     answers
     views

    Spark-submit无法访问EMR中的hadoop文件系统?

    我试图通过使用docker容器使用marathon将作业提交到其他集群上,docker容器安装了hadoop和spark二进制文件,并且具有正确的hadoop_conf_dir和yarn_corn_dir路径 . 但是,当我尝试做Spark-submit时,它无法访问EMR.i中的hadoop文件系统 . 试图使用spark.yarn.jars和spark.yarn.archive但它失败了 命令...
  • 1 votes
     answers
     views

    如何编写可以使用“hadoop -jar”运行的自包含YARN应用程序?

    我必须在Hadoop集群中运行一些无法用Map / Reduce表示的东西 . 我想过为它写一个YARN应用程序 . 我发现Spring Yarn用于spring-boot并遵循Getting Started(参见链接) . 这项工作到目前为止,但有一些缺陷: 在本教程中,生成了三个JAR(一个用于客户端,一个用于appmaster,一个用于容器),在提交应用程序时必须处于特定的文件夹结构中 ...
  • 0 votes
     answers
     views

    使用-Phadoop_2构建的giraph和使用-Phadoop_yarn构建的giraph会对hadoop的使用有什么影响?

    我知道giraph-dist-1.2.0-hadoop2-bin.tar.gz二进制发行版是使用以下maven命令构建的,并且由hadoop-2.5.1正式支持 . “mvn -Phadoop_2 clean install” 我在hadoop-2.5.1上以伪分布模式成功使用了giraph-dist-1.2.0-hadoop2-bin.tar.gz,其中我配置了纱线 . 现在,我下载了girap...
  • 0 votes
     answers
     views

    如何确定在-w参数中设置giraph的 Worker 数量?

    我正在使用一个ec2 hadoop集群,它由20台c3.8xlarge机器组成,每台机器有60 GB RAM和32个虚拟CPU . 在每台机器中,我都设置了纱线和mapreduce设置,如下所示https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-task-config.html,即如下所示: c3.8xlarge Confi...
  • 4 votes
     answers
     views

    在纱线集群上“无法获得Kerberos领域”

    情况如下: 我在Windows 7上使用MIT Kerberos客户端kfw 4.0.1执行此操作 . 我通过OpenVPN连接到一个YARN集群,该集群由Kerberos 5保护 . 这个集群已经存在了一段时间,并且它已被其他人使用,因此错误不太可能出现在这方面 . 我可以通过kinit获得一张票(返回没有错误) . 但是,一旦我尝试执行以下任何命令: hdfs dfs -ls spar...

热门问题