有没有人设法通过HDP中的Oozie成功运行Spark动作?
我使用Oozie 4.2.0运行HDP 2.3.2 . 火花动作设置为以纱线群集模式运行 . 火花作业是虚拟作业,没有输入文件 .
我首先点击错误here并设法通过从hdfs oozie spark lib文件夹中删除以下内容来绕过它(在我的情况下: /user/oozie/share/lib/lib_20151116201309/spark/
):
-
tachyon-0.5.0.jar
-
tachyon-client-0.5.0.jar(两者都是因为this错误)
-
spark-core_2.10-1.1.0.jar
-
spark-graphx_2.10-1.1.0.jar
-
spark-streaming_2.10-1.1.0.jar
并在工作流lib文件夹中添加以下内容:
-
datanucleus-api-jdo-3.2.6.jar
-
datanucleus-core-3.2.10.jar
-
datanucleus-rdbms-3.2.9.jar
-
spark-1.4.1.2.3.2.0-2950-yarn-shuffle.jar
-
spark-assembly-1.4.1.2.3.2.0-2950-hadoop2.7.1.2.3.2.0-2950.jar
-
spark-examples-1.4.1.2.3.2.0-2950-hadoop2.7.1.2.3.2.0-2950.jar
现在我发现以下错误:
失败的Oozie Launcher,主类[org.apache.oozie.action.hadoop.SparkMain],main()抛出异常,调用从hdp4 / 10.10.1.84到0.0.0.0:8032连接异常失败:java.net.ConnectException : 拒绝连接;有关更多详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused java.net.ConnectException:从连接异常调用hdp4 / 10.10.1.84到0.0.0.0:8032失败:java.net.ConnectException:连接被拒绝;有关更多详细信息,请参阅:http://wiki.apache.org/hadoop/ConnectionRefused
我提到:
在job.properties文件和yarn配置文件中
-
,作业跟踪器/资源管理器端口设置为8032
-
应用程序运行了大约20分钟(我多次运行并观察此时间)
1 回答
以下是我为使SparkAction在HDP 2.3.4上运行而执行的步骤 .
备份Oozie sharelib spark文件夹并删除除
oozie-sharelib-<spark-version>.jar
以外的所有jar文件 . 在我的情况下,我只是将spark文件夹重命名为spark-backup
并创建了一个新的spark
文件夹,然后复制了我提到的jar .将所有 jar 从
$SPARK_HOME/lib
复制到Oozie sharelib spark文件夹 .重启Oozie
通过Ambari将yarn.resourcemanager.address更改为
<myhost>:8032
重新启动YARN
我之前或多或少有过相同的问题,所以我在Hortonworks社区发布了这个question,这帮助我最终实现了它 .