我们有一个运行Impala的EMR集群 .
我们在DynamoDB和S3中有很多数据 .
将数据从Dynamo中获取到我们的HDFS EMR集群的最佳/推荐方法是什么(这样我之后可以将其导入Impala)?我应该编写一个导入 boto 和一些HDFS库的python脚本来完成它,我应该直接学习PIG,还是有更好的解决方案?
boto
我的建议是采取一个小的学习曲线并熟悉 AWS Data Pipe . 这本身就是一项非常好的服务;最好的是它完全管理并且互操作性非常好 .
AWS Data Pipe
因此,无需额外的第三方工具[ETL]套件和扩展,无需运行其他EC2实例;你到 link, schedule, transfer Data from DynamoDB to EMR.
这个链接有必要的信息;但您可以从这里和那里获取想法并创建您的DynamoDB到EMR链接[http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html]
我使用alteryx进行ETL . 我建议使用它 . 它也有非常酷的分析包 .
2 回答
我的建议是采取一个小的学习曲线并熟悉
AWS Data Pipe
. 这本身就是一项非常好的服务;最好的是它完全管理并且互操作性非常好 .因此,无需额外的第三方工具[ETL]套件和扩展,无需运行其他EC2实例;你到 link, schedule, transfer Data from DynamoDB to EMR.
这个链接有必要的信息;但您可以从这里和那里获取想法并创建您的DynamoDB到EMR链接[http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-importexport-ddb-part2.html]
我使用alteryx进行ETL . 我建议使用它 . 它也有非常酷的分析包 .