-
0 votesanswersviews
配置文件在zeppelin中点燃发现,即使存在IgniteConfiguration bean,config xml也不起作用
我使用基于zookeeper的发现来点燃集群,并且点燃节点正在正确连接 . 当我在zeppelin点击解释器中设置相同的config.xml文件时,我无法运行点火 . 它失败,但有以下异常 . 它给我以下错误的zepplin:找不到配置:file:////tmp/shared.xml无法在以下位置找到配置:file:////tmp/shared.xml 例外细节:please click this... -
1 votesanswersviews
使用Spark提交的酸洗错误“_pickle.PicklingError:来自__newobj__ args的args [0]有错误的类”
当我尝试通过Spark-Submit或Zeppelin运行一些代码时出现以下错误:“pickle.PicklingError:来自_ newobj __ args的args [0]有错误的类” 我已经查看过具有相同问题的帖子,并且对此问题没有太多了解 . 回溯(包含在下面)指向我使用的udfs之一: udf_stop_words = udf(stop_words, ArrayType(String... -
2 votesanswersviews
zeppeline破管错误
我使用zeppelin和其他团队成员的报告 . 人们总是对我说..“zeppelin不起作用,修好了” zeppelin是错误的 . java.net.SocketException:Broken pipe(写入失败)类java.sql.SQLException org.apache.hive.jdbc.HiveStatement.runAsyncOnServer(HiveStatement.j... -
-3 votesanswersviews
嗨,我试图在Apache Zeppelin上运行一个猪脚本,它给了我错误
org.apache.pig.backend.executionengine.ExecException:ERROR 4010:在类路径中找不到hadoop配置(在类路径中找不到hadoop-site.xml和core-site.xml) . 如果您打算使用本地模式,请在org.apache.pache.backend.hadoop的org.apache.pig.backend.hadoop.e... -
1 votesanswersviews
将Apache Zeppelin连接到Hive
我尝试将我的apache zeppelin与我的hive Metastore连接起来 . 我使用zeppelin 0.7.3所以没有hive解释器只有jdbc . 我已将我的hive-site.xml复制到zeppelin conf文件夹,但我不知道如何创建一个新的hive解释器 . 我还尝试通过spark的hive上下文访问hive表,但是当我尝试这种方式时,我看不到我的hive数据库只显示了一... -
0 votesanswersviews
在RHEL 7.2上安装Apache Zeppelin
我们有一个带有RHEL 7.2的集群,我们希望安装Zeppelin和Ambari,但我们遇到了问题 . 是否在RHEL 7.2中支持Zeppelin?有没有人在RHEL 7.2上安装它? Here它说它到目前为止只在CentOS / RHEL 6上测试过 . 我们正在使用HDP 2.4 . 更新: 这是日志: File "/usr/lib/python2.6/site-packages/... -
0 votesanswersviews
zeppelin 0.6.0能与Spark 1.4.1一起使用吗?
我已经在我的集群上安装了zeppelin 0.6.0,它有火花1.4.1(HDP 2.3) . 根据release notes我看到它支持spark 1.6但不确定它是否向后兼容 . 当我尝试在笔记本中运行sc.version时,我可以看到火花作业是以纱线形式提交的,但它在应用程序日志中出现以下错误时立即失败 Error: Could not find or load main class org... -
0 votesanswersviews
apache zeppelin hive jdbc mapreduce java.sql.SQLException
Zeppelin中用于hive的JDBC解释器在非MR查询中工作正常 . 在MR的情况下,得到以下错误 %Hive select from from table where month = 2; 提示以下异常:java.sql.SQLException中:在org.apache.hive.jdbc.HiveStatement从org.apache.hadoop.hive.ql.exec.mr.Ma... -
11 votesanswersviews
齐柏林飞艇的Hello世界失败了
我刚刚安装了apache zeppelin(从git repo的最新源代码构建)并成功地看到它在端口10008中启动并运行 . 我用一行代码创建了一个新的笔记本 val a = "Hello World!" 并运行此段并看到以下错误 java.net.ConnectException:java.net.AbstractPlainSocketImpl.doConnect(Ab... -
0 votesanswersviews
zeppelin with spark 1.5.2独立集群错误
我已经将Zeppelin 0.5.5二进制文件下载到了redhat 6.3实例中 . 我也成功地 Build 了火花1.5.2 . 现在,我想让zeppelin使用spark版本而不是zeppelin附带的预编译版本 . 为此,我编辑了conf / so,它只包含这条未注释的行: export SPARK_HOME=/home/eron/spark-1.5.2/ 我还编辑了zeppelin GU... -
0 votesanswersviews
Apache Zeppelin在不同的机器上给出错误火花
我有一个本地火花群设置,一个主机和一个从机 . 我在更多的机器上安装了Zeppelin并尝试从Zeppelin运行一些命令来激活主机 . 为此,我创建了一个主人的火花解释器 spark://<ip>:7077 当我运行 sc 命令 它给出了这个错误 java.net.ConnectException:连接被拒绝在java.net.PlainSocketImpl.socketConne... -
6 votesanswersviews
ClassNotFoundException:org.apache.spark.repl.SparkCommandLine
我是Apache Zeppelin的新手,我尝试在本地运行它 . 我尝试运行一个简单的健全性检查,看看 sc 存在并得到以下错误 . 我编译它为pyspark和spark 1.5(我使用spark 1.5) . 我将内存增加到5 GB并将端口更改为8091 . 我不确定我做错了什么,所以我得到以下错误,我该如何解决它 . 提前致谢 java.lang.ClassNotFoundException... -
1 votesanswersviews
如何在Zeppelin上运行Spark来分析xml文件
我可以通过 bin/spark-shell --packages com.databricks:spark-xml_2.11:0.3.0 运行Spark shell来分析xml文件,例如: import org.apache.spark.sql.SQLContext val sqlContext = new SQLContext(sc) val df = sqlContext.read ... -
5 votesanswersviews
Apache Zeppelin - Zeppelin教程未能创建解释器 - 连接被拒绝
我试图在Windows Server 2012中安装Spark 2.0.1来测试Zeppelin 0.6.2 . 我启动了Spark master并测试了Spark Shell . 然后我在conf \ zeppeling-env.cmd文件中配置了以下内容: set SPARK_HOME=C:\spark-2.0.1-bin-hadoop2.7 set MASTER=spark://100.79... -
0 votesanswersviews
Apache Zeppelin错误本地jar不存在
java.lang.RuntimeException:警告:本地jar C:\ Zeppelin \ zeppelin-0.8.0-bin-all \ bin \ 54480不存在,正在跳过 . 警告:本地jar C:\ Zeppelin \ zeppelin-0.8.0-bin-all \ bin \ 10.10.10.122不存在,正在跳过 . java.lang.ClassNotFoun... -
1 votesanswersviews
java.lang.IllegalArgumentException:要求失败:未注册任何输出操作,因此无需执行任何操作
当我执行下面的代码时给出错误“java.lang.IllegalArgumentException:要求失败:没有注册输出操作,所以没有什么可执行的”任何人都可以帮助我吗? val ssc = new StreamingContext(sc, Seconds(1)) val sqlContext = new org.apache.spark.sql.SQLContext(sc) ... -
1 votesanswersviews
.sample()返回Spark中固定随机生成器种子的不同结果
我是Spark的新手,我正在研究一些数据争论 . 从Spark中的RDD表中进行随机行选择时遇到问题 . 为了确保我每次从RDD表中选择的行都是相同的(这对我来说更容易检查后面的表连接是否正确),我预先指定随机看生成器 . 我用 .sample() . 这是代码: val distinct_id = rddtable.select("id").distinct().sampl... -
1 votesanswersviews
与Ignite集成时出现Apache Zeppelin 'Failed to start Ignite node'错误
我正在发现Apache Ignite并创建了一个类似于他们的单词计数示例的简单应用程序 . 它是将多个.txt文件中的单词串行传输到缓存中 . 我可以在Java应用程序的SqlFieldsQuery类的帮助下查询这些单词 . public class NodeStartup { public static void main(String[] args) throws IgniteExc... -
1 votesanswersviews
在EMR上使用Spark SQL查询Glue表时获取NullPointerException(Name为null)
我已经使用Spark和Zeppelin设置了AWS EMR,并将AWS Glue目录设置为Hive的Metastore . 我用过这个指令:https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-glue.html 似乎EMR集群和Zeppeling正在发挥作用 . 当我运行以下段落时: %sql show databases ... -
1 votesanswersviews
使用Zeppelin Spark 2.0和Pyspark连接到AWS Redshift
我需要在Zeppelin中将Redshift数据读入数据帧 . 在过去的几个月里,我一直在AWS上通过Zeppelin使用Spark 2.0来成功打开csv和json S3文件 . 我以前能够使用以下代码在Spark EM 1.6R(可能是1.6.1)上从Zeppelin连接到Redshift,使用此代码: %pyspark from pyspark.sql import SQLContext,... -
3 votesanswersviews
通过添加更多节点来降低火花簇性能
我有一个包含1B记录的大型数据集,并希望使用Apache spark运行分析,因为它提供了扩展,但我在这里看到了反模式 . 我添加到spark集群的节点越多,完成时间就越长 . 数据存储是Cassandra,查询由Zeppelin运行 . 我尝试了很多不同的查询,但即使是 dataframe.count() 的简单查询也是这样的 . 这是zeppelin笔记本,临时表有18M记录 val df =... -
1 votesanswersviews
Datastax Spark Zeppelin身份验证
我有一个数据存储集群4.8(Cassandra Spark)激活了身份验证 . 我希望能够在我的集群上使用带有Spark master和我的数据库Cassandra的notebook Zeppelin . 我下载Zeppelin的二进制包0.5.6 . 我把它放在我的服务器上 . 如果我用默认配置启动它(./bin/zeppelin-daemon.sh start)它的工作正常http://Ser... -
1 votesanswersviews
Apache Zeppelin落后于Apache反向代理
我正在Apache Web服务器后面运行我的Apache Zeppelin实例,其中web服务器仅用作保留代理 . 如果我正在浏览反向代理站点 https://my-domain.com/zeppelin/ 我'm getting a website with assets and buttons and everything, but the websocket of Zeppelin won'... -
3 votesanswersviews
使用nginx作为反向代理运行Apache Zeppelin
在我们当前的架构中,我们有两个apache前端服务器,在它们之前,我们有一个nginx负载均衡器 . 并且在那之前是一个nginx反向代理 . 我的问题是我试图通过反向代理运行Apache Zeppelin,我遇到了一些websockets的问题 . 我收到这样的错误: 400 HTTP method GET is not supported by this URL 以下是Chrome网络标签显示... -
1 votesanswersviews
使用Spark和Yarn进行资源分配
我在纱线客户端模式下使用Zeppelin 0.7.3和Spark 2.3 . 我的设置是: 火花: spark.driver.memory 4096m spark.driver.memoryOverhead 3072m spark.executor.memory 4096m spark.executor.memoryOverhead 3072m spark.executor.cores 3 spa... -
4 votesanswersviews
从Scala注册UDF到SqlContext以在PySpark中使用
是否可以注册用Scala编写的UDF(或函数)在PySpark中使用?例如 . : val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 // Spam: 1,... -
3 votesanswersviews
为什么PCA在pyspark内存不足?
当我在pyspark中运行PCA时,我的内存不足 . 这是pyspark 1.6.3,并且执行环境是齐柏林飞艇笔记本 . 这是一个例子 . 设 df 为pyspark DataFrame,其中'vectors'是所需的输入列(包含数据的SparseVector) . from pyspark.ml.feature import PCA pca = PCA(k = 100, inputCol=&qu... -
1 votesanswersviews
使用pyspark的toPandas()错误:'int' object不可迭代
我有一个pyspark数据帧,我试图使用toPandas()将其转换为pandas,但是我遇到了下面提到的错误 . 我尝试了不同的选项,但得到了同样的错误:1)将数据限制为几个记录2)明确使用了collect()(我相信toPandas()本身使用) 在SO上探索了很多帖子,但AFAIK没有toPandas()问题 . 我的数据框的快照: - >>sc.version 2.3.0.2... -
0 votesanswersviews
Spark 2.0与Zeppelin 0.6.1 - SQLContext不可用
我在Linux服务器上运行spark 2.0和zeppelin-0.6.1-bin-all . 默认的spark笔记本运行得很好,但是当我尝试使用sqlContext在pyspark中创建并运行一个新的笔记本时,我得到错误“py4j.Py4JException:Method createDataFrame([class java.util.ArrayList,class java.util.Arr...