我正在使用下面的代码,在环境Kafka 1.0和spark 2.3.0上执行pyspark流应用程序
spark-submit --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.3.1,org.apache.spark:spark-streaming-kafka-0-10-assembly_2.11:2.3 . 1 SparkStreamingwithKafkacreateStream.py
而我正在低于输出:
在类路径中找不到Spark Streaming的Kafka库 . 请尝试以下方法之一 .
- 在spark-submit命令中包含Kafka库及其依赖项
$ bin / spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0 ...
- 从Maven Central http://search.maven.org/,Group Id = org.apache.spark,Artifact Id = spark-streaming-kafka-0-8-assembly,Version = 2.3.0下载工件的JAR . 然后,在spark-submit命令中包含jar作为
$ bin / spark-submit --jars ...
如果我使用的是0-8-assembly而不是0-10-assembly,我将收到以下错误 .
18/07/03 08:31:27错误TaskSetManager:阶段547.0中的任务0失败1次;中止工作18/07/03 08:31:27错误ReceiverTracker:接收器已经停止 . 尝试重新启动它 . org.apache.spark.SparkException:作业因阶段失败而中止:阶段547.0中的任务0失败1次,最近失败:阶段547.0中丢失的任务0.0(TID 547,localhost, Actuator 驱动程序):java.lang.NoClassDefFoundError:斯卡拉/收集/ GenTraversableOnce $类
任何帮助请 .
提前致谢