-
0 votesanswersviews
如何在客户端模式下使用带独立火花的pyspark加载--jars
我在客户端模式下使用python 2.7和spark独立集群 . 我想使用jdbc for mysql,发现我需要使用 --jars 参数加载它,我的本地有jdbc,并设法用pyspark控制台加载它,如here 当我在我的ide中编写python脚本时,使用pyspark,我无法加载额外的jar mysql-connector-java-5.1.26.jar 并继续获取 没有合适的司机 错... -
3 votesanswersviews
我可以在集群部署模式下运行pyspark jupyter笔记本吗?
Context: 群集配置如下: 所有东西都在运行docker文件 . node1:spark master node2:jupyter hub(我也运行我的笔记本) node3-7:spark worker节点 我可以使用默认的spark端口从我的工作节点telnet并ping到node2,反之亦然 Problem: 我试图让驱动程序在不是运行jupyter笔记本的节点的... -
0 votesanswersviews
PYSPARK - 集群模式下localhost的spark spark无法正常工作
我有以下代码几乎直接来自火花流教程 . SPARK STREAMING TUTORIAL from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext # Create a local StreamingContext with two working thread and ... -
0 votesanswersviews
可以从命令提示符运行pyspark.cmd但不能运行pyspark
我正在尝试为Windows设置pyspark . 我有java,python,Hadoop和spark我设想的所有设置和环境变量,因为我已经在其他地方指示了 . 实际上,我可以从命令提示符运行它: pyspark.cmd 它将加载pyspark解释器 . 但是,我应该能够运行不合格的pyspark(没有.cmd),否则python导入将不起作用 . 我是否直接导航到spark \ bin并不重要,... -
4 votesanswersviews
我在哪里可以找到经过训练的模型之间的标签贴图,例如googleNet的输出到真实的类标签?
大家好,我是caffe的新手 . 目前,我尝试使用从模型动物园下载的经过培训的GoogleNet来对一些图像进行分类 . 但是,网络的输出似乎是一个矢量而不是真正的标签(如狗,猫) . 我在哪里可以找到经过训练的模型之间的标签图,例如googleNet的输出到他们的真实类标签?谢谢 . -
2 votesanswersviews
来自python worker的错误:/ usr / bin / python没有名为pyspark的模块
我试图在Yarn上运行Pyspark,但是当我在控制台上键入任何命令时,我收到以下错误 . 我可以在本地和纱线模式下在Spark中运行scala shell . Pyspark在本地模式下运行正常,但在纱线模式下不起作用 . 操作系统:RHEL 6.x Hadoop发行版:IBM BigInsights 4.0 Spark版本:1.2.1 WARN scheduler.TaskSetManag... -
0 votesanswersviews
无法在python shell中导入PySpark
我尝试在$ SPARK_HOME / bin / pyspark文件中添加follownig: export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH' along with 'export SPARK_HOME' to .bashrc file. In the bashrc I have given the path like this export... -
1 votesanswersviews
pyspark saveAsTextFile适用于python 2.7但不适用于3.4
我在Amazon EMR集群上运行pyspark . 我有一个非常简单的测试脚本,看看我是否可以使用spark-submit将数据写入s3 ... from pyspark import SparkContext sc = SparkContext() numbers = sc.parallelize(range(100)) numbers.saveAsTextFile("s3n://m... -
2 votesanswersviews
添加python包以在aws EMR中使用spark
我刚刚开始使用AWS EMR作为测试的一部分 - 我已经创建了一个启动文件来使用我的EMR实例上的pip安装特定的python包 . 我知道这是非常基本的 . bash脚本包含 #!/bin/bash set -e pip install typing --user 但是,当我提交python脚本作为一个步骤时,我收到以下错误 Traceback(最近调用最后一次):文件“py-calcul... -
0 votesanswersviews
在oozie中添加pyspark python路径
我正在尝试使用Hue在Oozie上运行一个简单的python脚本 . 我正在使用anaconda parcels安装,所以我还添加了Cloudera管理器,spark配置(spark-conf / spark-env.sh的Spark服务高级配置代码段(安全阀)) if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON... -
-1 votesanswersviews
更新运行spark Ubuntu 14的python版本
我正在尝试用python设置我的环境 . 我得到一个带有Ubuntu 14.04 Desktop的虚拟机,然后我安装了火花版1.6.2,现在我很难配置python版本3.5 . 我目前的pyspark运行方式如下: 我可用的python版本是-ls / usr / bin / | grep python 我尝试编辑.bashrc文件以添加变量PYSPARK_PYTHON 非常感谢您的支持 -
3 votesanswersviews
如何防止EMR Spark步骤重试?
我有一个AWS EMR集群(emr-4.2.0,Spark 1.5.2),我从aws cli提交步骤 . 我的问题是,如果Spark应用程序失败,那么YARN正在尝试再次运行应用程序(在相同的EMR步骤下) . 我怎么能阻止这个? 我试图设置 --conf spark.yarn.maxAppAttempts=1 ,它在环境/火花属性中正确设置,但它不会阻止YARN重新启动应用程序 . -
4 votesanswersviews
Spark 1.6 kafka在dataproc py4j错误上流式传输
我收到以下错误: Py4JError(u'An在调用o73.createDirectStreamWithoutMessageHandler时发生错误.Trace:\ npy4j.Py4JException:方法createDirectStreamWithoutMessageHandler([class org.apache.spark.streaming.api.java.JavaStreami... -
4 votesanswersviews
为什么向Mesos提交Spark应用程序失败并显示“无法解析主URL:'mesos://localhost:5050'”?
当我尝试将Spark应用程序提交到Mesos集群时,我收到以下异常: 17/01/31 17:04:21 WARN NativeCodeLoader:无法为您的平台加载native-hadoop库...在适用的情况下使用builtin-java类17/01/31 17:04:22错误SparkContext:初始化SparkContext时出错 . org.apache.spark.Spark... -
0 votesanswersviews
AWS EMR集群中的spark-submit“错误:JAR中没有主类设置”
我在AWS EMR集群中收到此错误 - $ spark-submit Movierecommendation错误:无法从JAR文件加载主类:/ home / hadoop / Movierecommendation运行--help用于使用帮助或--verbose用于调试输出 可能导致此错误的原因 . Scala代码能够使用sbt进行编译 . 让我知道 . -
0 votesanswersviews
在Cloudera VM 5.7和上运行spark示例
我正在学习hadoop,机器学习和火花 . 我已经下载了Cloudera 5.7 Quick Start VM . 我还将https://github.com/apache/spark中的示例作为zip文件下载并复制到Cloudera VM . 我对运行机器学习以及来自https://github.com/apache/spark的任何示例都有挑战 . 我尝试运行简单的单词计数示例但失败了 . 以... -
2 votesanswersviews
运行PySpark时出错,无法连接到master
嗨,我有以下python代码: from __future__ import print_function import sys from pyspark.sql import SparkSession from data import Data if __name__ == "__main__": if len(sys.argv) != 2: ... -
0 votesanswersviews
如何从pyspark中的本地jar导入包装?
我正在使用pyspark对csv文件做一些工作,因此我需要从https://repo1.maven.org/maven2/com/databricks/spark-csv_2.11/1.4.0/spark-csv_2.11-1.4.0.jar下载的spark-csv_2.10-1.4.0.jar导入包 由于代理问题,我将jar下载到了我的本地 . 谁能告诉我引用本地jar的正确用法: 这是我使用的... -
7 votesanswersviews
SparkSession初始化错误 - 无法使用spark.read
我尝试创建一个独立的PySpark程序,它读取csv并将其存储在hive表中 . 我在配置Spark会话, Session 和上下文对象时遇到问题 . 这是我的代码: from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, SparkSession from pyspark.sql.types ... -
1 votesanswersviews
ImportError无法导入名称SparkContext
我正在从shell设置以下导出 . export SPARK_HOME="/opt/cloudera/parcels/CDH-5.4.5-1.cdh5.4.5.p0.7/lib/spark" export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH PYTHONPATH=$SPARK_HO... -
3 votesanswersviews
能够区分服务器OpenERP / Odoo版本
我正在开发移动应用程序,必须能够通过原始json rpc请求使用7和8版本协议 . 经过几个小时的搜索,我仍然很好奇,如何确定哪个版本的OpenERP / Odoo服务器使用?任何想法或可能在这里存在一些特定的请求来了解服务器构建信息 . 提前致谢 . Update 感谢@Mischievous的回答 . 它给了我一个观点 . 所以,我的解决方案就是那样的请求 your.server.url/we... -
0 votesanswersviews
jupyter pyspark输出:没有模块名称sknn.mlp
我有1个WorkerNode SPARK HDInsight群集 . 我需要在Pyspark Jupyter中使用scikit-neuralnetwork和vaderSentiment模块 . 使用以下命令安装库: cd /usr/bin/anaconda/bin/ export PATH=/usr/bin/anaconda/bin:$PATH conda update matplotlib ... -
1 votesanswersviews
使用Pyspark内核阅读Jupyter笔记本中的Spark Avro文件
我想在Jupyter笔记本中阅读Spark Avro文件 . 我有火花-avro建成 . 当我进入我的目录并执行以下操作时 pyspark --packages org.apache.avro:avro-mapred:1.7.7,com.databricks:spark-avro_2.10:2.0.1 它能够在浏览器中打开一个jupyter笔记本,然后我可以运行以下命令并正确读取 . sdf_e... -
1 votesanswersviews
使用IPython和Jupyter笔记本运行Spark应用程序
我正在尝试使用these instructions安装Jupyter . 我已经在Anaconda下安装了当我尝试运行pyspark时(从使用PySpark启动笔记本部分)我收到以下错误: $ pyspark Traceback(最近一次调用最后一次):文件“/ opt / cloudera / parcels / Anaconda / bin / jupyter”,第4行,来自jupyter_... -
0 votesanswersviews
如果我在获取SparkContext()之前打开文件,Pyspark会抛出Java网关异常
我正在Jupyter笔记本上使用 pyspark ,在IP“ spark://remote:port ”上运行 Spark 2.1.1 集群(spark master IP)我能够成功创建SparkContext . 但是, I want to read spark_master_ip and spark.cores.max from a .properties file (instead of ... -
4 votesanswersviews
pyspark(cluster)jupyter postgres:Py4JJavaError:调用o117.showString时发生错误
我尝试使用pyspark(集群)jupyter笔记本连接到PostgreSQL,奇怪的是当在控制台工作中使用pyspark时很好但是因为jupyter我有这个错误,任何想法? 这是我的脚本,非常简单: import findspark findspark.init() import pyspark from pyspark import SparkContext, SparkConf from p... -
0 votesanswersviews
Pyspark2写入CSV问题?
我通过命令运行py文件: /opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars /home/jsonnt200/geomesa-hbase-spark-runtime_2.11-1.3.5.1cc.jar,/ccri/hbase-site.zip geomesa_klo... -
0 votesanswersviews
安装Anaconda3,jupyter笔记本出错没有模块名为'pyspark'
我一直在stackoverflow和其他地方搜索我现在看到的错误并尝试了一些“答案”,没有人在这里工作(我会继续搜索并在这里更新): 我安装了新的Ubuntu和Anaconda3,安装了Spark 2: Anaconda3:/ home / rxie / anaconda Spark2:/ home / rxie / Downloads / spark 我能够启动Jupyter Notebook,... -
1 votesanswersviews
在Amazon EMR上从Dev机器启动Apache Spark作业
我目前拥有的: 在Amazon的EMR(emr-4.7.2)上运行的Spark群集 . 使用动态端口转发到主节点的SSH隧道 . 使用以下配置从我的IDE(IntelliJ IDEA)本地运行的Spark应用程序(我正在使用JAVA): SparkConf sparkConf = new SparkConf() .setAppName("Example S... -
2 votesanswersviews
如何从Jenkins向EMR纱线集群部署火花作业?
我在EMR集群上有几个火花作业,使用必须定期运行且由Jenkins提交的纱线 . 目前,Jenkins机器将ssh进入EMR上的主节点,其中代码的副本已准备好在要执行的文件夹中 . 我希望能够将我的repo克隆到jenkins工作区并提交Jenkins的代码以便在集群上执行 . 有一个简单的方法吗?从詹金斯部署火花的最佳方法是什么?