我已将Flume源配置为Spooldir类型 . 我有很多 CSV files, .xl3 and .xls ,我希望我的Flume代理将所有文件从spooldir加载到HDFS接收器 . 但水槽代理返回异常
这是我对水槽来源的配置:
agent.sources.s1.type = spooldir
agent.sources.s1.spoolDir = /my-directory
agent.sources.s1.basenameHeader = true
agent.sources.batchSize = 10000
和我的HDFS接收器:
agent.sinks.sk1.type = hdfs
agent.sinks.sk1.hdfs.path = hdfs://...:8020/user/importflume/%Y/%m/%d/%H
agent.sinks.sk1.hdfs.filePrefix = %{basename}
agent.sinks.sk1.hdfs.rollSize = 0
agent.sinks.sk1.hdfs.rollCount = 0
agent.sinks.sk1.hdfs.useLocalTimeStamp = true
agent.sinks.sk1.hdfs.batchsize = 10000
agent.sinks.sk1.hdfs.fileType = DataStream
agent.sinks.sk1.serializer = avro_event
agent.sinks.sk1.serializer.compressionCodec = snappy
1 回答
您可以将以下配置用于spool目录 . 只需在以下配置中提供本地文件系统和HDFS位置的路径即可 .
您也可以参考Flume spool dir上的this blog获取更多信息 .