Java 学习之路

0 votes

answers

views

如何在客户端模式下使用带独立火花的pyspark加载--jars

我在客户端模式下使用python 2.7和spark独立集群 . 我想使用jdbc for mysql，发现我需要使用 --jars 参数加载它，我的本地有jdbc，并设法用pyspark控制台加载它，如here 当我在我的ide中编写python脚本时，使用pyspark，我无法加载额外的jar mysql-connector-java-5.1.26.jar 并继续获取没有合适的司机错...

python mysql apache-spark jdbc pyspark
3 votes

answers

views

我可以在集群部署模式下运行pyspark jupyter笔记本吗？

Context: 群集配置如下：所有东西都在运行docker文件 . node1：spark master node2：jupyter hub（我也运行我的笔记本） node3-7：spark worker节点我可以使用默认的spark端口从我的工作节点telnet并ping到node2，反之亦然 Problem: 我试图让驱动程序在不是运行jupyter笔记本的节点的...

apache-spark pyspark jupyter-notebook
0 votes

answers

views

PYSPARK - 集群模式下localhost的spark spark无法正常工作

我有以下代码几乎直接来自火花流教程 . SPARK STREAMING TUTORIAL from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext # Create a local StreamingContext with two working thread and ...

apache-spark pyspark spark-streaming
0 votes

answers

views

可以从命令提示符运行pyspark.cmd但不能运行pyspark

我正在尝试为Windows设置pyspark . 我有java，python，Hadoop和spark我设想的所有设置和环境变量，因为我已经在其他地方指示了 . 实际上，我可以从命令提示符运行它： pyspark.cmd 它将加载pyspark解释器 . 但是，我应该能够运行不合格的pyspark（没有.cmd），否则python导入将不起作用 . 我是否直接导航到spark \ bin并不重要，...

apache-spark pyspark
4 votes

answers

views

我在哪里可以找到经过训练的模型之间的标签贴图，例如googleNet的输出到真实的类标签？

大家好，我是caffe的新手 . 目前，我尝试使用从模型动物园下载的经过培训的GoogleNet来对一些图像进行分类 . 但是，网络的输出似乎是一个矢量而不是真正的标签（如狗，猫） . 我在哪里可以找到经过训练的模型之间的标签图，例如googleNet的输出到他们的真实类标签？谢谢 .

machine-learning neural-network deep-learning caffe
2 votes

answers

views

来自python worker的错误：/ usr / bin / python没有名为pyspark的模块

我试图在Yarn上运行Pyspark，但是当我在控制台上键入任何命令时，我收到以下错误 . 我可以在本地和纱线模式下在Spark中运行scala shell . Pyspark在本地模式下运行正常，但在纱线模式下不起作用 . 操作系统：RHEL 6.x Hadoop发行版：IBM BigInsights 4.0 Spark版本：1.2.1 WARN scheduler.TaskSetManag...

python hadoop apache-spark pyspark biginsights
0 votes

answers

views

无法在python shell中导入PySpark

我尝试在$ SPARK_HOME / bin / pyspark文件中添加follownig： export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH' along with 'export SPARK_HOME' to .bashrc file. In the bashrc I have given the path like this export...

python pyspark
1 votes

answers

views

pyspark saveAsTextFile适用于python 2.7但不适用于3.4

我在Amazon EMR集群上运行pyspark . 我有一个非常简单的测试脚本，看看我是否可以使用spark-submit将数据写入s3 ... from pyspark import SparkContext sc = SparkContext() numbers = sc.parallelize(range(100)) numbers.saveAsTextFile("s3n://m...

python amazon-web-services apache-spark pyspark amazon-emr
2 votes

answers

views

添加python包以在aws EMR中使用spark

我刚刚开始使用AWS EMR作为测试的一部分 - 我已经创建了一个启动文件来使用我的EMR实例上的pip安装特定的python包 . 我知道这是非常基本的 . bash脚本包含 #!/bin/bash set -e pip install typing --user 但是，当我提交python脚本作为一个步骤时，我收到以下错误 Traceback（最近调用最后一次）：文件“py-calcul...

apache-spark amazon-emr
0 votes

answers

views

在oozie中添加pyspark python路径

我正在尝试使用Hue在Oozie上运行一个简单的python脚本 . 我正在使用anaconda parcels安装，所以我还添加了Cloudera管理器，spark配置（spark-conf / spark-env.sh的Spark服务高级配置代码段（安全阀）） if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON...

apache-spark pyspark oozie
-1 votes

answers

views

更新运行spark Ubuntu 14的python版本

我正在尝试用python设置我的环境 . 我得到一个带有Ubuntu 14.04 Desktop的虚拟机，然后我安装了火花版1.6.2，现在我很难配置python版本3.5 . 我目前的pyspark运行方式如下：我可用的python版本是-ls / usr / bin / | grep python 我尝试编辑.bashrc文件以添加变量PYSPARK_PYTHON 非常感谢您的支持

python ubuntu apache-spark pyspark
3 votes

answers

views

如何防止EMR Spark步骤重试？

我有一个AWS EMR集群（emr-4.2.0，Spark 1.5.2），我从aws cli提交步骤 . 我的问题是，如果Spark应用程序失败，那么YARN正在尝试再次运行应用程序（在相同的EMR步骤下） . 我怎么能阻止这个？我试图设置 --conf spark.yarn.maxAppAttempts=1 ，它在环境/火花属性中正确设置，但它不会阻止YARN重新启动应用程序 .

amazon-web-services apache-spark yarn emr
4 votes

answers

views

Spark 1.6 kafka在dataproc py4j错误上流式传输

我收到以下错误： Py4JError（u'An在调用o73.createDirectStreamWithoutMessageHandler时发生错误.Trace：\ npy4j.Py4JException：方法createDirectStreamWithoutMessageHandler（[class org.apache.spark.streaming.api.java.JavaStreami...

apache-spark apache-kafka google-cloud-dataproc
4 votes

answers

views

为什么向Mesos提交Spark应用程序失败并显示“无法解析主URL：'mesos://localhost:5050'”？

当我尝试将Spark应用程序提交到Mesos集群时，我收到以下异常： 17/01/31 17:04:21 WARN NativeCodeLoader：无法为您的平台加载native-hadoop库...在适用的情况下使用builtin-java类17/01/31 17:04:22错误SparkContext：初始化SparkContext时出错 . org.apache.spark.Spark...

apache-spark mesos
0 votes

answers

views

AWS EMR集群中的spark-submit“错误：JAR中没有主类设置”

我在AWS EMR集群中收到此错误 - $ spark-submit Movierecommendation错误：无法从JAR文件加载主类：/ home / hadoop / Movierecommendation运行--help用于使用帮助或--verbose用于调试输出可能导致此错误的原因 . Scala代码能够使用sbt进行编译 . 让我知道 .

java scala amazon-web-services hadoop
0 votes

answers

views

在Cloudera VM 5.7和上运行spark示例

我正在学习hadoop，机器学习和火花 . 我已经下载了Cloudera 5.7 Quick Start VM . 我还将https://github.com/apache/spark中的示例作为zip文件下载并复制到Cloudera VM . 我对运行机器学习以及来自https://github.com/apache/spark的任何示例都有挑战 . 我尝试运行简单的单词计数示例但失败了 . 以...

machine-learning pyspark cloudera-quickstart-vm
2 votes

answers

views

运行PySpark时出错，无法连接到master

嗨，我有以下python代码： from __future__ import print_function import sys from pyspark.sql import SparkSession from data import Data if __name__ == "__main__": if len(sys.argv) != 2: ...

python-2.7 apache-spark pyspark
0 votes

answers

views

如何从pyspark中的本地jar导入包装？

我正在使用pyspark对csv文件做一些工作，因此我需要从https://repo1.maven.org/maven2/com/databricks/spark-csv_2.11/1.4.0/spark-csv_2.11-1.4.0.jar下载的spark-csv_2.10-1.4.0.jar导入包由于代理问题，我将jar下载到了我的本地 . 谁能告诉我引用本地jar的正确用法：这是我使用的...

csv pyspark
7 votes

answers

views

SparkSession初始化错误 - 无法使用spark.read

我尝试创建一个独立的PySpark程序，它读取csv并将其存储在hive表中 . 我在配置Spark会话， Session 和上下文对象时遇到问题 . 这是我的代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, SparkSession from pyspark.sql.types ...

python apache-spark pyspark apache-spark-sql apache-spark-2.0
1 votes

answers

views

ImportError无法导入名称SparkContext

我正在从shell设置以下导出 . export SPARK_HOME="/opt/cloudera/parcels/CDH-5.4.5-1.cdh5.4.5.p0.7/lib/spark" export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH PYTHONPATH=$SPARK_HO...

python unix apache-spark pyspark
3 votes

answers

views

能够区分服务器OpenERP / Odoo版本

我正在开发移动应用程序，必须能够通过原始json rpc请求使用7和8版本协议 . 经过几个小时的搜索，我仍然很好奇，如何确定哪个版本的OpenERP / Odoo服务器使用？任何想法或可能在这里存在一些特定的请求来了解服务器构建信息 . 提前致谢 . Update 感谢@Mischievous的回答 . 它给了我一个观点 . 所以，我的解决方案就是那样的请求 your.server.url/we...

openerp openerp-7 openerp-8
0 votes

answers

views

jupyter pyspark输出：没有模块名称sknn.mlp

我有1个WorkerNode SPARK HDInsight群集 . 我需要在Pyspark Jupyter中使用scikit-neuralnetwork和vaderSentiment模块 . 使用以下命令安装库： cd /usr/bin/anaconda/bin/ export PATH=/usr/bin/anaconda/bin:$PATH conda update matplotlib ...

pyspark jupyter jupyter-notebook hdinsight
1 votes

answers

views

使用Pyspark内核阅读Jupyter笔记本中的Spark Avro文件

我想在Jupyter笔记本中阅读Spark Avro文件 . 我有火花-avro建成 . 当我进入我的目录并执行以下操作时 pyspark --packages org.apache.avro:avro-mapred:1.7.7,com.databricks:spark-avro_2.10:2.0.1 它能够在浏览器中打开一个jupyter笔记本，然后我可以运行以下命令并正确读取 . sdf_e...

python apache-spark pyspark
1 votes

answers

views

使用IPython和Jupyter笔记本运行Spark应用程序

我正在尝试使用these instructions安装Jupyter . 我已经在Anaconda下安装了当我尝试运行pyspark时（从使用PySpark启动笔记本部分）我收到以下错误： $ pyspark Traceback（最近一次调用最后一次）：文件“/ opt / cloudera / parcels / Anaconda / bin / jupyter”，第4行，来自jupyter_...

hadoop pyspark
0 votes

answers

views

如果我在获取SparkContext（）之前打开文件，Pyspark会抛出Java网关异常

我正在Jupyter笔记本上使用 pyspark ，在IP“ spark://remote:port ”上运行 Spark 2.1.1 集群（spark master IP）我能够成功创建SparkContext . 但是， I want to read spark_master_ip and spark.cores.max from a .properties file (instead of ...

java python apache-spark pyspark jupyter-notebook
4 votes

answers

views

pyspark（cluster）jupyter postgres：Py4JJavaError：调用o117.showString时发生错误

我尝试使用pyspark（集群）jupyter笔记本连接到PostgreSQL，奇怪的是当在控制台工作中使用pyspark时很好但是因为jupyter我有这个错误，任何想法？这是我的脚本，非常简单： import findspark findspark.init() import pyspark from pyspark import SparkContext, SparkConf from p...

python-3.x postgresql pyspark jupyter-notebook
0 votes

answers

views

Pyspark2写入CSV问题？

我通过命令运行py文件： /opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars /home/jsonnt200/geomesa-hbase-spark-runtime_2.11-1.3.5.1cc.jar,/ccri/hbase-site.zip geomesa_klo...

python csv pyspark
0 votes

answers

views

安装Anaconda3，jupyter笔记本出错没有模块名为'pyspark'

我一直在stackoverflow和其他地方搜索我现在看到的错误并尝试了一些“答案”，没有人在这里工作（我会继续搜索并在这里更新）：我安装了新的Ubuntu和Anaconda3，安装了Spark 2： Anaconda3：/ home / rxie / anaconda Spark2：/ home / rxie / Downloads / spark 我能够启动Jupyter Notebook，...

python apache-spark pyspark jupyter-notebook
1 votes

answers

views

在Amazon EMR上从Dev机器启动Apache Spark作业

我目前拥有的：在Amazon的EMR（emr-4.7.2）上运行的Spark群集 . 使用动态端口转发到主节点的SSH隧道 . 使用以下配置从我的IDE（IntelliJ IDEA）本地运行的Spark应用程序（我正在使用JAVA）： SparkConf sparkConf = new SparkConf() .setAppName("Example S...

java amazon-web-services apache-spark
2 votes

answers

views

如何从Jenkins向EMR纱线集群部署火花作业？

我在EMR集群上有几个火花作业，使用必须定期运行且由Jenkins提交的纱线 . 目前，Jenkins机器将ssh进入EMR上的主节点，其中代码的副本已准备好在要执行的文件夹中 . 我希望能够将我的repo克隆到jenkins工作区并提交Jenkins的代码以便在集群上执行 . 有一个简单的方法吗？从詹金斯部署火花的最佳方法是什么？

apache-spark pyspark emr

热门问题