首页 文章

如何使用Scala 2.11将Kafka作为Apache Spark的流运行?

提问于
浏览
1

我无法为Kafka for Scala 2.11找到任何Spark Streaming集成版本 . 这里有一个http://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka_2.10,但它是2.10

任何人都可以指点我2.11版本?

1 回答

  • 2

    特定于您的问题:

    现在对Scala 2.11运行Spark Kafka是不可行的( Spark-1.3

    从源代码构建的一般方法:

    如果没有可用的预构建版本,您可以自己构建spark并通过指定一些构建参数来满足您的需求 .

    可以找到详细的构建过程:Building Spark

    简而言之,如果构建针对scala-2.10,则只需要两个步骤:

    export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
    
    mvn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package
    

    您应该在第二个命令中指定适合您情况的配置文件或属性

    注意 Building for Scala 2.11 上的Building Spark部分:

    要生成使用Scala 2.11编译的Spark包,请使用-Dscala-2.11属性:dev / change-version-to-2.11.sh mvn -Pyarn -Phadoop-2.4 -Dscala-2.11 -DskipTests clean包Scala 2.11支持Spark不支持一些功能,因为依赖本身不是Scala 2.11准备好的 . 具体来说,Scala 2.11版本中尚不支持Spark的外部Kafka库和JDBC组件 .

相关问题