首页 文章

在hdfs kafka,flume中的不同目录中登陆文件

提问于
浏览
0

我想将csv文件从一个服务器(Unix服务器A)发送到hdfs目录 . 基于哪些csv文件我想将它们放在hdfs中的不同目录中 .

我有一个11个csv文件,将由kafka 生产环境 者在unix服务器A上发送给kafka . csv文件的第一个元素将包含一个键 . 我想采取第一个元素,并使其成为kafka消息的关键 . 另外,我想将数据的值作为消息发送到kafka .

当它到达kafka集群时,会有一个用于提取数据的水槽代理和用于按键对数据进行排序的拦截器,以将其引导到11个kafka-topic通道(作为水槽中的通道) . 然后,通道将数据重定向到适当的hdfs目录 .

这个设计有意义吗?或者有更好的方法吗?也许火花流?

1 回答

  • 0

    你提到的设置似乎一见钟情 .

    拦截器是将事件详细信息放入标头的好方法 . 但是,您已经提到过它将是对 Channels 进行排序/定向的 Channels . 而不是那样,您可能希望将 header 中添加的 header 指定为hdfs接收器中 path 的一部分 .

相关问题