在我的单一课程中,我必须 Build 一个小“大数据”项目 . 为此,我从API收集数据并将其写入文件,每个新数据集都附加到该文件 . 一个kafka制作人收集了这些数据,我已经设置了水槽将其写入HDFS . 它工作正常,但我得到了我不想要的信息

{"schema":{"type":"string","optional":false},"payload":"reak - Scan|9926110|1497381796|Roku Stick - A7171G046923|episode|97|1497386716"}

我只想要有效载荷,因为我想将该数据集导入配置单元 . 目前,它还为每个新行创建一个新文件 . 有没有办法在hdfs上有一个文件,每当有新条目进入时它会被扩展?

谢谢你的帮助!