-
0 votesanswersviews
AWS EMR从S3导入pyfile
我很难理解如何使用pyspark将文件作为库导入 . 假设我有以下内容 HappyBirthday.py def run(): print('Happy Birthday!') sparky.py from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession import HappyBir... -
0 votesanswersviews
pyspark - 读取格式错误的.gz文件
我正在EMR上的pyspark中读取压缩的.gz文件 . 但是文件格式不正确(它是每行中具有不同列数的json文件)并且获得以下异常 . 有人可以提供有关如何在pyspark中读取格式错误的gz文件的指示吗? 码: rdd = sc.textFile("s3n://abc/us/web-logs/2018/08/29/00/0000.gz"); df = rdd.toDF();... -
0 votesanswersviews
运行spark ETL时saveAsTextFile出现间歇性问题
我们有一个包含大约40列和4000万条记录的数据框 . 当我们在数据帧上运行saveAsTextFile(s3://)以触发DAG执行时,作业将失败 intermittently 并出现以下错误 . DAG涉及多个连接,联合和过滤器转换,saveAsTextFile是唯一会触发DAG执行的操作 . 有人可以帮助理解我如何调试这个 . 作业在启用了自动缩放的专用EMR群集上运行 . org.ap... -
1 votesanswersviews
Flink EMR安装
我是flink并尝试在EMR集群上部署它的新手 . 我使用了3个节点集群(1个主节点和2个从节点)及其默认配置 . 我没有进行任何配置更改并坚持使用默认配置 . 我很想知道以下几点: 主站和从站如何相互通信,因为我没有在主节点的conf / slave中提到任何IP? 我可以在主节点(Path:/ usr / lib / flink)中看到flink库,但在slave节点中找不到flink... -
2 votesanswersviews
亚马逊EMR:Pyspark有奇怪的依赖问题
我一直遇到在EMR集群上运行pyspark作业的问题,所以我登录到主节点并直接在那里运行spark-submit 我有一个python文件,我提交给pyspark,在这个文件中我有: import subprocess from pyspark import SparkContext, SparkConf import boto3 from boto3.s3.transfer import S3T... -
0 votesanswersviews
pyspark模块在spark正在使用的python实例中不可用
我正在使用我自己没有在AWS中设置的EMR . 我试图理解Python解释器火花正在使用什么,在我的.bashrc中我有以下设置 export PYSPARK_PYTHON=/mnt/anaconda/bin/python 当我运行spark-submit命令时,我使用sys.executable打印到python解释器的路径,这确实是它使用的解释器 . 但是,当我专门去那个文件夹时,用 ./py... -
1 votesanswersviews
在亚马逊EMR上用蟒蛇激发火花深度学习的外部 jar
我一直在努力让我的EMR集群上的火花深度学习库能够与Python 2.7并行读取图像 . 我一直在寻找这个问题已经有一段时间了,我未能找到解决方案 . 我尝试在conf中为sparksession设置不同的配置设置,并且在尝试创建SparkSession对象时出现以下错误 ERROR SparkContext:91 - Error initializing SparkContext. org.ap... -
0 votesanswersviews
将Spark作业提交到Amazon EMR
我即将尝试EMR,现在就开始通过文档 . 我对提交过程感到有些困惑 . 1) Where are the spark Libraries 从Spark文档中我们发现: - spark.yarn.jars: 包含要分发到YARN容器的Spark代码的库列表 . 默认情况下,YARN上的Spark将使用本地安装的Spark jar,但Spark jar也可以位于HDFS上的世界可读位置 . 这允许YA... -
0 votesanswersviews
错误的FS加载json与来自s3的火花
我正在尝试用spark加载geojson文件和magellan library我的加载代码是: val polygons = spark.read.format("magellan").option("type", "geojson").load(inJson) 其中inJson是我在s3上的json的路径:s3n://bucket-n... -
2 votesanswersviews
Amazon EMR 5.0上的spark-submit executor-memory问题
我启动了这样的Python Spark程序: /usr/lib/spark/bin/spark-submit \ --master yarn \ --executor-memory 2g \ --driver-memory 2g \ --num-executors 2 --executor-cores 4 \ my_spark_program.py 我收到错误: 所需的... -
8 votesanswersviews
如何在Amazon EMR上查找spark主URL
我是新手,并试图在版本为1.3.1的Amazon集群上安装spark . 当我做 SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 它对我有用,但我知道这是为了测试目的我可以设置本地[2] 当我尝试使用群集模式时,我将其更改为 ... -
2 votesanswersviews
带有AWS Glue的Spark Catalog:未找到数据库
我用胶水数据目录创建了一个EMR集群 . 当我调用spark-shell时,我能够成功地列出存储在Glue数据库中的表 spark.catalog.setCurrentDatabase("test") spark.catalog.listTables 但是,当我通过 spark-submit 提交作业时,我收到致命错误 ERROR ApplicationMaster: Use... -
1 votesanswersviews
在EMR上使用Spark SQL查询Glue表时获取NullPointerException(Name为null)
我已经使用Spark和Zeppelin设置了AWS EMR,并将AWS Glue目录设置为Hive的Metastore . 我用过这个指令:https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html 似乎EMR集群和Zeppeling正在发挥作用 . 当我运行以下段落时: %sql show databases ... -
0 votesanswersviews
无法测试来自Spark的S3支持的Hbase
我写了一个简单的程序来读取HBase中的数据,该程序在HDFS支持的Cloudera中找到 . 但是在使用S3测试EMR上的数据时获得异常 . // Spark conf SparkConf sparkConf = new SparkConf().setMaster("local[4]").setAppName("My App"); ... -
0 votesanswersviews
Spark任务默认超时
我有一个spark应用程序,其中驱动程序启动很少的任务,并且在每个任务中都是VoidFunction,我有一个长期运行的无限循环 . 我将推测执行设置为false . 一段时间(Timeout)或任务无限运行后,火花会杀死我的任务吗?如果任务将在某个时间后被杀死(那个持续时间是什么)以及如何无限长时间地运行任务? -
0 votesanswersviews
在EMR集群中的Spark上使用graphx / pregel API获取NullPointerException
我正在尝试基于此示例生成层次结构信息:https://www.qubole.com/blog/processing-hierarchical-data-using-spark-graphx-pregel-api/ 在根据需要调整代码之后,当我运行代码时,它在我的本地工作正常,但我在EMR中获得了NPE . val hrchyRDD = initialGraph.pregel(initialMsg,... -
0 votesanswersviews
在EMR集群上以纱线模式运行spark应用程序
我运行此代码,它给出了一个空指针异常 . 当我挖掘更多时,我发现它无法在kie会话中创建对象 码: package com.rsrit.cob.drools; import java.io.BufferedWriter; import java.io.OutputStreamWriter; import java.io.Serializable; import org.kie.api.run... -
15 votesanswersviews
表格的异常通过AWS Glue Crawler识别并存储在数据目录中
我正在努力 Build 公司的新数据湖,并试图找到最好的和最近的选择在这里工作 . 所以,我找到了一个非常好的解决方案来使用EMR S3 Athena Glue . 我做的过程是: 1 - 运行Apache Spark脚本,以生成由Orc存储的S3中按日期分区的3000万行 . 2 - 运行Athena查询以创建外部表 . 3 - 检查与胶水数据目录相关的EMR表,它工作得很好 . Spa... -
5 votesanswersviews
处理Spark中的大型gzip压缩文件
我有一个来自s3的大型(大约85 GB压缩)gzip压缩文件,我正在尝试使用AWS EMR上的Spark处理(现在有一个m4.xlarge主实例和两个m4.10xlarge核心实例,每个实例都有一个100 GB的EBS卷) . 我知道gzip是一种不可拆分的文件格式,并且应该重新对压缩文件进行重新分区,因为Spark最初给出了一个带有一个分区的RDD . 但是,做完之后 scala> va... -
1 votesanswersviews
pyspark csv |镶木地板写入失败java.io.IOException:文件已经存在
我有一份工作,每次迭代后写入s3 . 我正在使用csv格式(.gzip) . 即使我覆盖了该位置,第一次迭代后作业也会失败,抛出该文件存在的错误 . 我尝试追加,但仍然遇到同样的问题 . 代码如下所示: vdna_report_table_tmp.coalesce(2).write.save(path='s3://analyst-adhoc/elevate/tempData/VDNA_BRANDS... -
3 votesanswersviews
Spark 2.3.1 AWS EMR不返回某些列的数据,但仍适用于Athena / Presto和Spectrum
我在AWS EMR上使用Spark 2.3.1上的PySpark(Python 2.7.14) spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.c... -
5 votesanswersviews
结构化流媒体赢得了't write DF to file sink citing /_spark_metadata/9.compact doesn't存在
我正在EMR 5.11.1,Spark 2.2.1中构建一个Kafka摄取模块 . 我的目的是使用结构化流来消费Kafka主题,进行一些处理,并以镶木地板格式存储到EMRFS / S3 . 控制台接收器按预期工作,文件接收器不起作用 . 在 spark-shell : val event = spark.readStream.format("kafka") .option(&q... -
1 votesanswersviews
Spark DataFrame行数在运行之间不一致
当我在EMR上运行我的spark作业(版本2.1.1)时,每次运行会在数据帧上计算不同的行数 . 我首先从s3读取数据到4个不同的数据帧,这些计数总是一致的,然后在加入数据帧之后,连接的结果具有不同的计数 . 之后我也会过滤结果,每次运行时也有不同的计数 . 变化很小,1-5行差异,但它仍然是我想要了解的东西 . 这是加入的代码: val impJoinKey = Seq("iid&qu... -
0 votesanswersviews
纱线容器,火花 Actuator 和EMR中可用节点之间的关系是什么?
假设我有一个拥有1个主节点,3个核心节点和5个任务节点的集群 . 如果我在YARN集群模式下运行spark作业,驱动程序将在主节点上运行(主节点也可以运行执行程序吗?),每个容器可以有X个执行程序 . 我有3 5 = 8个容器吗?或者只有3个容器,因为只有核心节点可以存储数据? 另外,如果我有两个同时运行的spark作业,每个节点有2个独立的容器,每个spark作业有1个,或者2个spark jo... -
2 votesanswersviews
如何使用AWS Glue / Spark将在S3中分区和拆分的CSV转换为分区和拆分Parquet
在AWS Glue的目录中,我有一个外部表定义了分区,在S3中看起来大致如此,并且每天添加新日期的分区: s3://my-data-lake/test-table/ 2017/01/01/ part-0000-blah.csv.gz . . part-8000-blah.csv.gz 2017/01/02/ ... -
3 votesanswersviews
hadoop流式传输确保每个减速器一个键
我有一个映射器,在处理数据时,将输出分为3种不同的类型(类型是输出键) . 我的目标是通过reducer创建3个不同的csv文件,每个文件包含一个带有 Headers 行的键的所有数据 . 键值可以更改,并且是文本字符串 . 现在,理想情况下,我希望有3个不同的reducer,每个reducer只有一个键,它的整个值列表 . 除此之外,这似乎不起作用,因为键不会映射到特定的reducer . 其他... -
18 votesanswersviews
用于短期任务的Amazon EC2按需工作者
我希望构建一个Web应用程序,它需要在R中按需运行资源密集型MCMC(Markov chain Monte Carlo)计算,以便为用户生成一些概率图 . 约束: 显然,我不想在与Web应用程序前端相同的服务器上运行资源密集型计算,因此需要将这些任务交给 worker instance . 这些计算需要运行大量的CPU,我希望尽可能保持延迟(希望是秒,而不是几分钟),所以我宁愿在 bee... -
1 votesanswersviews
pyspark saveAsTextFile适用于python 2.7但不适用于3.4
我在Amazon EMR集群上运行pyspark . 我有一个非常简单的测试脚本,看看我是否可以使用spark-submit将数据写入s3 ... from pyspark import SparkContext sc = SparkContext() numbers = sc.parallelize(range(100)) numbers.saveAsTextFile("s3n://m... -
2 votesanswersviews
添加python包以在aws EMR中使用spark
我刚刚开始使用AWS EMR作为测试的一部分 - 我已经创建了一个启动文件来使用我的EMR实例上的pip安装特定的python包 . 我知道这是非常基本的 . bash脚本包含 #!/bin/bash set -e pip install typing --user 但是,当我提交python脚本作为一个步骤时,我收到以下错误 Traceback(最近调用最后一次):文件“py-calcul... -
1 votesanswersviews
在亚马逊emr上运行时要指定为spark master的内容
Spark有native support by EMR . 使用EMR Web界面创建新群集时,可以添加一个自定义步骤,该步骤将在群集启动时执行Spark应用程序,基本上是群集启动后的自动spark-submit . 我一直在想如何在启动EMR集群并通过指定的EMR步骤提交jar文件时,如何在应用程序中为SparkConf指定主节点? 事先不可能知道集群主机的IP,如果我手动启动集群然后在调用sp...