-
0 votesanswersviews
如何跨多个数据集和日期分区从Dataproc写入BigQuery?
我们有一个每日Dataproc流程,可以代表我们的客户从多个来源导入数据进行分析 . 目前,我们每天都没有收到大量数据,但预计会大幅增加 . 我们当前的流程有四个Dataproc Spark作业,可以在最终作业中导入,解析,加入和输出到Cloud SQL,在每个作业之间编写临时Avro文件 . 即使使用我们当前的数据级别,Cloud SQL也开始变得紧张(部分原因是由于一个公认的糟糕模式) . 我... -
0 votesanswersviews
Google Cloud 端平台上的预定mapreduce工作
我正在开发一个基本上 stores user event logs in a database and shows insights about user action 的node.js应用程序 . 要实现此事件,必须使用 Mapreduce 作业进行分析,该作业将运行 once a day automatically (每晚) . 我完全迷失了,因为有几种技术,如果不使用命令行就找不到办法,也没... -
0 votesanswersviews
无法创建Cloud Dataproc自定义映像
您好我是GoogleDataProc的新手,并尝试为数据交换机创建自定义图像 . 我已按照文档中提到的所有步骤进行操作,但在运行它时,我发现SuccessMatch“BuildSucceeded:Dataproc Initialization Actions Succeeded” . 然后我得到以下错误: 命令从安装了gcloud sdk的本地计算机: python generate_custom... -
4 votesanswersviews
Spark 1.6 kafka在dataproc py4j错误上流式传输
我收到以下错误: Py4JError(u'An在调用o73.createDirectStreamWithoutMessageHandler时发生错误.Trace:\ npy4j.Py4JException:方法createDirectStreamWithoutMessageHandler([class org.apache.spark.streaming.api.java.JavaStreami... -
2 votesanswersviews
由于SSD标签错误,无法创建数据集群
我使用以下gcloud命令在过去几周内成功创建了数据集群集: gcloud dataproc --region us-east1 clusters create test1 --subnet default --zone us-east1-c --master-machine-type n1-standard-4 --master-boot-disk-size 250 --num- worker... -
1 votesanswersviews
如何为PySpark设置Window函数的分区?
我正在运行PySpark作业,我收到以下消息: WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation. 消... -
1 votesanswersviews
如何使用stackdriver为dataproc集群创建空闲/正常运行时间度量标准
我想为我正在运行的所有数据集群创建一个空闲或正常运行时间指标,而且从我在stackdriver中看到的情况来看,我无法这样做 . 我的方案是我有每天运行的定时数据业务作业,在作业完成后我删除了集群 . 我想通过电子邮件创建一个警报,如果有空闲的数据集群在一小时内什么也不做,或者数据集群的正常运行时间超过24(甚至20)小时 . 谢谢 . -
10 votesanswersviews
Guava 版同时使用火花壳
我试图通过数据采集器上的spark-shell使用spark-cassandra-connector,但是我无法连接到我的集群 . 似乎版本不匹配,因为类路径包含来自其他地方的更古老的 Guava 版本,即使我在启动时指定了正确的版本 . 我怀疑这可能是由默认情况下放入类路径的所有Hadoop依赖项引起的 . 反正有没有火花壳只使用适当版本的 Guava ,而没有摆脱所有与Hadoop相关的数据包... -
0 votesanswersviews
执行者心跳在DataProc上超时Spark
我想在Google DataProc群集上安装Spark(2.0.0)中的ml模型 . 在拟合模型时,我收到Executor心跳超时错误 . 我该如何解决这个问题? 其他解决方案表明这可能是由于执行者(其中一个)的内存不足造成的 . 我读作解决方案:设置正确的设置,重新分区,缓存,并获得更大的集群 . 我该怎么办,最好不要设置更大的群集? (制作更多/更少的分区?缓存更少?调整设置?) 我的设定:... -
0 votesanswersviews
在GCP Dataproc上为什么Spark Dataframe .format(“parquet”) . save(“path”)方法调用失败?
我正在运行Spark Job which works locally ,我希望能够保存为可配置的格式 df .write .mode("overwrite") .partitionBy(KEY_YEAR, KEY_MONTH, KEY_DAY, KEY_TYPE) .format(conf.syncType) .save(s"<my syn... -
2 votesanswersviews
性能调整火花中的LDA
我正在使用spark(通过Scala API)实现LDA模型,并使用不同数量的主题测试模型 . 它似乎一般工作正常,但遇到间歇性任务失败,我很确定与内存问题有关 . 我当前代码的相关部分如下 . 请注意,我正在从RDD的文本转储中加载我的数据,其中每个文档都是稀疏的mllib向量 . 所以我的 LDA_vectors 文件中的示例行如下所示: (7066346,(112312,[1,3,5,7,.... -
0 votesanswersviews
我们如何将现有的kafka - spark - cassandra项目部署到google-cloud-platform中的kafka - dataproc -cassandra?
我现有的项目是kafka-spark-cassandra . 现在我有了gcp帐户,必须将spark作业迁移到dataproc . 在我现有的spark作业中,像masterip,内存,内核等参数通过命令行传递,该命令行由linux shell脚本触发并创建新的sparkConf . val conf = new SparkConf(true).setMaster(master).setAppNa... -
1 votesanswersviews
从Dataproc集群上的Spark UI获取文件时的http代码302
我启动了Dataproc集群,在端口4040上使用Web UI时出现问题 . 首先,我展示了spark-shell显示的IP和端口 . 然后,当我在Spark UI端口上输入URL时,我会显示302错误代码 . wilsonbill522 @ cluster-db78-m:〜$ spark-shell将默认日志级别设置为“WARN” . 要调整日志记录级别,请使用sc.setLogLevel(n...