我最近开始学习像SQOOP,Hive,Pig这样的BigData技术,并发现有多种替代方法(如SQOOP,HiveQL等)可用于解决给定问题 . 我对技术/工具的选择感到有点困惑 .
如果您在大多数情况下采用任何典型的Microsoft BI项目流程
SSIS(处理原始数据) - > SSAS(创建OLAP DB) - > SSRS(生成报告) .
类似于此,BigData / Hadoop项目的典型流程是什么 . 假设我的数据源是电子邮件日志 .
它实际上取决于你的要求和你拥有的技能 . 在我看来,您可以通过多种方式处理电子邮件日志 .
选项
(近实时)使用flume流式传输来自源的电子邮件日志--->将日志存储在水槽中的HDFS中--->使用Pig或Hive分析日志 .
(实时)使用Storm spouts流式传输电子邮件日志--->使用storm bolt处理日志--->将它们存储在nosql数据库中以进行进一步的报告和分析 .
还有很多其他方法可以做到这一点 . 根据适合您要求的可用技能组合,您可以决定 .
1 回答
它实际上取决于你的要求和你拥有的技能 . 在我看来,您可以通过多种方式处理电子邮件日志 .
选项
(近实时)使用flume流式传输来自源的电子邮件日志--->将日志存储在水槽中的HDFS中--->使用Pig或Hive分析日志 .
(实时)使用Storm spouts流式传输电子邮件日志--->使用storm bolt处理日志--->将它们存储在nosql数据库中以进行进一步的报告和分析 .
还有很多其他方法可以做到这一点 . 根据适合您要求的可用技能组合,您可以决定 .