首页 文章

来自Kafka Consumer的Spark Streaming

提问于
浏览
5

我可能需要和 Kafka 一起工作,我对它很陌生 . 我知道有些Kafka制作人会将日志(在Kafka中称为事件或消息或记录)发布到Kafka主题 .

我需要通过消费者阅读 Kafka 主题 . 我是否需要首先设置消费者API然后我可以使用SparkStreaming Context(PySpark)进行流式传输,或者我可以直接使用KafkaUtils模块来读取kafka主题?

如果我需要设置Kafka消费者应用程序,我该怎么做?请您分享正确文档的链接 .

提前致谢!!

2 回答

  • 5

    Spark提供内部kafka流,其中你不需要创建自定义消费者有2种方法来连接kafka 1和接收器2.直接接近 . 有关更多详细信息,请通过此链接http://spark.apache.org/docs/latest/streaming-kafka-integration.html

  • 1

    没有必要设置kafka消费者应用程序,Spark本身通过两种方法创建了一个消费者 . 一种是使用KafkaUtils类的Reciever Based Approach,另一种是使用CreateDirectStream方法的Direct Approach . 不知何故,在任何离线Spark流式传输失败的情况下,都没有数据丢失,它从您离开的数据偏移开始 .

    有关更多详细信息,请使用此链接:http://spark.apache.org/docs/latest/streaming-kafka-integration.html

相关问题