首页 文章

ETL到Impala的EMR上

提问于
浏览
0

我们有一个运行Impala的EMR集群 .

我们在DynamoDB和S3中有很多数据 .

将数据从Dynamo中获取到我们的HDFS EMR集群的最佳/推荐方法是什么(这样我之后可以将其导入Impala)?我应该编写一个导入 boto 和一些HDFS库的python脚本来完成它,我应该直接学习PIG,还是有更好的解决方案?

2 回答

  • 0

    我的建议是采取一个小的学习曲线并熟悉 AWS Data Pipe . 这本身就是一项非常好的服务;最好的是它完全管理并且互操作性非常好 .

    因此,无需额外的第三方工具[ETL]套件和扩展,无需运行其他EC2实例;你到 link, schedule, transfer Data from DynamoDB to EMR.

    这个链接有必要的信息;但您可以从这里和那里获取想法并创建您的DynamoDB到EMR链接[http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html]

  • 1

    我使用alteryx进行ETL . 我建议使用它 . 它也有非常酷的分析包 .

相关问题