我正在使用 hortonworks 沙箱。
创建主题:
./kafka-topics.sh --create --zookeeper 10.25.3.207:2181 --replication-factor 1 --partitions 1 --topic lognew
拖尾 apache 访问日志目录:
tail -f /var/log/httpd/access_log |./kafka-console-producer.sh --broker-list 10.25.3.207:6667 --topic lognew
在另一个终端(kafka bin)启动消费者:
./kafka-console-consumer.sh --zookeeper 10.25.3.207:2181 --topic lognew --from-beginning
apache 访问日志将发送到 kafka 主题“lognew”。
我需要将它们存储到 HDFS。
有关如何执行此操作的任何想法或建议。
提前致谢。
Deepthy
2 回答
我们使用加缪。
但它似乎被gobblin取代
使用 Apache Flume 从 Kafka 读取消息并将其写入 HDFS。有几个例子说明如何设置它,但是一个来自 Cloudera 的文章很好地涵盖了这个主题。他们甚至将解决方案命名为 Flafka;)
使用Kafka HDFS 连接器,这很容易设置。但是,它需要 Confluent Kafka(仍然是开源的)。
我们测试得非常成功。