我正在使用下面的代码,在环境Kafka 1.0和spark 2.3.0上执行pyspark流应用程序

spark-submit --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.3.1,org.apache.spark:spark-streaming-kafka-0-10-assembly_2.11:2.3 . 1 SparkStreamingwithKafkacreateStream.py

而我正在低于输出:

在类路径中找不到Spark Streaming的Kafka库 . 请尝试以下方法之一 .

  • 在spark-submit命令中包含Kafka库及其依赖项

$ bin / spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8:2.3.0 ...

  • 从Maven Central http://search.maven.org/,Group Id = org.apache.spark,Artifact Id = spark-streaming-kafka-0-8-assembly,Version = 2.3.0下载工件的JAR . 然后,在spark-submit命令中包含jar作为

$ bin / spark-submit --jars ...

如果我使用的是0-8-assembly而不是0-10-assembly,我将收到以下错误 .


18/07/03 08:31:27错误TaskSetManager:阶段547.0中的任务0失败1次;中止工作18/07/03 08:31:27错误ReceiverTracker:接收器已经停止 . 尝试重新启动它 . org.apache.spark.SparkException:作业因阶段失败而中止:阶段547.0中的任务0失败1次,最近失败:阶段547.0中丢失的任务0.0(TID 547,localhost, Actuator 驱动程序):java.lang.NoClassDefFoundError:斯卡拉/收集/ GenTraversableOnce $类


任何帮助请 .

提前致谢