首页 文章
  • 0 votes
     answers
     views

    Spark日志 - 使用的最大执行程序内存

    我在晚上运行一系列spark-submit作业作为AWS / EMR集群上的步骤 . 完成后,火花簇将被拆除,但是日志会保存到S3 . 我想我还没有完全利用执行程序内存,我可以减少核心实例的大小或数量,但我想要聪明地做 . 基本上我想了解如何导航日志,以便找到最坏情况执行者使用的最大内存 . 理想情况下,我希望找到每个“步骤”(基本上每个spark-submit作业),但“步骤”日志中没有任何用处...
  • 0 votes
     answers
     views

    运行spark ETL时saveAsTextFile出现间歇性问题

    我们有一个包含大约40列和4000万条记录的数据框 . 当我们在数据帧上运行saveAsTextFile(s3://)以触发DAG执行时,作业将失败 intermittently 并出现以下错误 . DAG涉及多个连接,联合和过滤器转换,saveAsTextFile是唯一会触发DAG执行的操作 . 有人可以帮助理解我如何调试这个 . 作业在启用了自动缩放的专用EMR群集上运行 . org.ap...
  • 2 votes
     answers
     views

    亚马逊EMR:Pyspark有奇怪的依赖问题

    我一直遇到在EMR集群上运行pyspark作业的问题,所以我登录到主节点并直接在那里运行spark-submit 我有一个python文件,我提交给pyspark,在这个文件中我有: import subprocess from pyspark import SparkContext, SparkConf import boto3 from boto3.s3.transfer import S3T...
  • 1 votes
     answers
     views

    在AWS EMR集群上使用PySpark创建Parquet文件

    我正在尝试使用Datbricks的CSV软件包来启动Spark集群,以便我可以创建镶木地板文件,并且明显地使用Spark做一些事情 . 这是在AWS EMR中完成的,所以我不认为我将这些选项放在正确的位置 . 这是我想要在群集旋转时发送到群集的命令: spark-shell --packages com.databricks:spark-csv_2.10:1.4.0 --master yarn -...
  • 3 votes
     answers
     views

    GroupBy DataFrame的操作在spark 2.0中花费了大量时间

    在我的一个火花工作(EMR 5.0.0上的2.0)中,我有大约5GB的数据被交叉连接30行(数据大小几MB) . 我还需要分组 . 我注意到我花了很多时间(一个m3.xlarge主节点和六个m3.2xlar核心节点大约需要4个小时) . 通过处理总共花费2小时,并且另外花费2小时将数据写入s3 . 所花的时间对我来说并不是很令人印象深刻 . 我尝试在网上搜索,发现这个链接说groupBy带来很多改...
  • 18 votes
     answers
     views

    未在Amazon EMR上完全分配Spark资源

    我正在尝试最大化群集使用以完成一项简单的任务 . Cluster是1 2 x m3.xlarge,运行Spark 1.3.1,Hadoop 2.4,Amazon AMI 3.7 该任务读取文本文件的所有行并将其解析为csv . 当我将任务作为纱线群集模式提交时,我得到以下结果之一: 0 executor:job无限等待,直到我手动杀死它 1执行人:仅使用1台机器工作的资源利用资源当我没有为...
  • 4 votes
     answers
     views

    当Plaquet挂起并失败时,EMR上的Spark 1.6写入S3

    我正在创建一个uber jar spark应用程序,我将其提交给EMR 4.3集群,我正在配置4个r3.xlarge实例,一个是主服务器,另外三个是核心服务器 . 我从控制台预安装了hadoop 2.7.1,ganglia 3.7.2 spark 1.6和hive 1.0.0 . 我正在运行以下命令: spark-submit \ --deploy-mode cluster \ --executo...
  • 0 votes
     answers
     views

    Spark Dataframe在EMR上加载500k文件

    我在EMR(5.5.1)上使用Spark 2.1.0,Hadoop 2.7.3,Hive 2.1.1,Sqoop 1.4.6和Ganglia 3.7.2运行pyspark工作,它正在从s3加载数据 . 有多个桶包含输入文件,所以我有一个函数,它使用boto遍历它们并根据某种模式过滤掉它们 . Cluster Size :Master => r4.xlarge,Workers => 3 ...
  • 3 votes
     answers
     views

    如何防止EMR Spark步骤重试?

    我有一个AWS EMR集群(emr-4.2.0,Spark 1.5.2),我从aws cli提交步骤 . 我的问题是,如果Spark应用程序失败,那么YARN正在尝试再次运行应用程序(在相同的EMR步骤下) . 我怎么能阻止这个? 我试图设置 --conf spark.yarn.maxAppAttempts=1 ,它在环境/火花属性中正确设置,但它不会阻止YARN重新启动应用程序 .
  • 2 votes
     answers
     views

    如何从Jenkins向EMR纱线集群部署火花作业?

    我在EMR集群上有几个火花作业,使用必须定期运行且由Jenkins提交的纱线 . 目前,Jenkins机器将ssh进入EMR上的主节点,其中代码的副本已准备好在要执行的文件夹中 . 我希望能够将我的repo克隆到jenkins工作区并提交Jenkins的代码以便在集群上执行 . 有一个简单的方法吗?从詹金斯部署火花的最佳方法是什么?
  • 1 votes
     answers
     views

    无法在Amazon S3存储桶中下载或读取Hive输出

    我是AWS和Hive的新手,我正在尝试使用Hive来分析Google Ngrams数据 . 我试图在S3存储桶中将表格保存为制表符分隔的CSV,但现在我不知道如何查看或下载它以查看我的作业是否正确执行 . 我用来创建表的查询是 CREATE EXTERNAL TABLE test_table2 ( gram string, year int, occurrences bigint, pag...
  • 1 votes
     answers
     views

    EMR 4.1.0 Spark 1.5.0 YARN资源分配

    我正在使用EMR 4.1.0 spark 1.5.0 YARN来处理大数据 . 我正在尝试使用完整集群,但有些YARN没有分配所有资源 . 使用4个X c3.8xlarge EC2从节点(每个60.0 GB内存和32个内核) 根据这个article我在EMR集群中设置了以下参数 yarn.nodemanager.resource.memory-mb - > 53856 yarn...
  • 0 votes
     answers
     views

    Spark Job需要很长时间

    我正在编写一个spark / scala ETL作业,它执行一些数据操作,从mongo db和redshift读取数据,连接,映射然后保存到s3 . 使用数据帧和数据集使用spark api(select,UDF)完成所有转换 . 数据不是很大,总行数约为1M,而且主要是select语句和udf . 出于某种原因,这项工作需要大约一个小时才能运行(每个 Worker 的EMR,1个主机和11个核心...
  • 0 votes
     answers
     views

    spark savemode.append文件已经存在

    我们在Amazon EMR(5.13)中的Spark作业内写入S3时遇到了罕见的问题 . 这是日志的一部分: Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 3 in stage 2.0 failed 4 times, most recent failure: Lost task ...
  • 1 votes
     answers
     views

    EMR上的Spark YARN - JavaSparkContext - IllegalStateException:库目录不存在

    我有一个Java Spark作业,可以在EC2上以独立模式手动部署Spark 1.6.0 . 我是火花 - 使用YARN将此作业提交给主服务器上的EMR 5.3.0集群,但它失败了 . Spark-submit系列是, spark-submit --class <startclass> --master yarn --queue default --deploy-mode cluste...
  • 2 votes
     answers
     views

    AWS EMR - 如何扩展hdfs容量

    我们的集群运行时有2个核心节点,dfs容量很小,需要增加 . 我向核心节点实例添加了一个500GB的新卷,并将其挂载到/ mnt1并更新了主节点和核心节点中的hdfs-site.xml . <property> <name>dfs.datanode.dir</name> <value>/mnt/hdfs,/mnt/hdfs1</...
  • 0 votes
     answers
     views

    为什么Spark不会在执行程序之间重新分配任务?

    我正在运行一项99%完成的火花工作 . 最后1%需要很长时间,所以我检查了工作跟踪器 . 如截图所示,我们可以看到一些执行程序仍然有几个活动任务,而一些执行任务有0个任务 . 为什么Spark没有重新分配任务? 另外,对于花费很长时间的最后1%的工作,主要是由于内存问题, Actuator 核心数量还是......?有没有办法找出原因? 谢谢!
  • 0 votes
     answers
     views

    EMRSpark Erorr:value couchbase不是org.apache.spark.sql.DataFrameReader的成员

    我试图将我的couchBase服务器连接到EMR Spark 1.4.1,同时遇到了 val airlines = sqlContext.read.couchbase(schemaFilter = org.apache.spark.sql.sources.EqualTo("type", "airline")) <console>:24: err...
  • 1 votes
     answers
     views

    Spark DataFrame行数在运行之间不一致

    当我在EMR上运行我的spark作业(版本2.1.1)时,每次运行会在数据帧上计算不同的行数 . 我首先从s3读取数据到4个不同的数据帧,这些计数总是一致的,然后在加入数据帧之后,连接的结果具有不同的计数 . 之后我也会过滤结果,每次运行时也有不同的计数 . 变化很小,1-5行差异,但它仍然是我想要了解的东西 . 这是加入的代码: val impJoinKey = Seq("iid&qu...
  • 2 votes
     answers
     views

    为缓存的RDD分配了多少内存?

    我有一个5工作节点集群,每个集群有6 GB的内存(Spark执行程序内存设置为4608 GB) . 我一直在耗尽内存,Spark告诉我,我的一个 Actuator 试图使用更多的5.0 GB内存 . 如果每个执行程序获得5 GB的内存,那么我的整个集群之间应该有25 GB的内存 . ExecutorLostFailure (executor 4 exited caused by one of th...
  • 0 votes
     answers
     views

    Apache Spark - 保持执行程序数相同如果我增加执行程序核心数,应用程序性能会提高

    我有集群有以下配置 节点数 - 6,机器 - M3.2xlarge,每个节点的核心数 - 8,每个节点的内存数-30 GB, 我正在运行spark应用程序,它正在从HDFS读取数据并发送到SNS / SQS . 我正在使用以下命令来运行此作业 spark-submit --class com.message.processor.HDFSMessageReader --master yarn...
  • 2 votes
     answers
     views

    Hbase completebulkload卡在AWS EMR上

    因此,我尝试使用HBase批量加载将一些数据加载到HBase中 . 这是我的堆栈设置:HBase版本1.3.1 Hadoop版本:2.7.3 EMR版本5.10 . 簇大小:20个R4.2xlarge实例 . 我有一个hbase表,它预先拆分为400个区域,HexStringSplit用于行键 . 该表只包含一个列族,并使用lz4压缩算法 然后我尝试使用bulkload将一些数据加载到表中 . 我...
  • 0 votes
     answers
     views

    当任务组节点丢失时EMR SPARK作业失败的原因是什么?

    我使用AWS emr-5.0.0运行包含以下注释的小型集群: 1 Master - AWS on demand实例 1核心 - AWS on demand实例 2任务 - AWS SPOT实例 所有这些都是x3.xlarge机器 . 我运行了两个阶段的python spark应用程序 . 问题是当我手动终止其中一个TASK实例(或由于现货价格变化而终止)时,整个火花作业都会...
  • 0 votes
     answers
     views

    在AWS上从EC2或EMR发送邮件

    Is there any way to Send mails with Reports attached from EMR? 我正在使用Amazon Web Services . 我不想在EC2中编写脚本来从EMR获取数据,将其添加到cron上,然后每天发送邮件 . 运气好的话,已经有来自亚马逊的任何Job Scheduler自动化了吗? Problem: 实施日常工作以在Hive上生成.cs...

热门问题