首页 文章

IIS日志实时调整Hadoop

提问于
浏览
0

我正在尝试在Hadoop中进行POC以进行日志聚合 . 我们有多个IIS服务器托管至少100个站点 . 我想将日志连续地传输到HDFS并解析数据并存储在Hive中以进行进一步的分析 .

1)Apache KAFKA是正确选择还是Apache Flume

2)流式传输之后,最好使用Apache风暴并将数据提取到Hive中

请帮助提出任何建议以及此类问题陈述的任何信息 .

谢谢

1 回答

  • 0

    您可以使用 Kafka or flume 也可以将两者结合起来将数据导入 HDFS 但是您需要为此编写代码有可用的Opensource数据流管理工具,您不需要编写代码 . 例如 . NiFi and Streamsets

    您不需要使用任何单独的摄取工具,您可以直接使用这些数据流工具将数据放入hive表中 . 在hive中创建表后,您可以通过提供查询来进行分析 .

    让我知道你还需要其他任何东西 .

相关问题