BigQuery到Hadoop集群 - 如何传输数据？-Java 学习之路

我有一个Google Analytics（GA）帐户，可以跟踪应用的用户活动 . 我设置了BigQuery，以便可以访问原始GA数据 . 数据每天都从GA转到BigQuery .

我有一个python应用程序以编程方式查询BigQuery API . 这个应用程序给我所需的响应，取决于我要查询的内容 .

我的下一步是从BigQuery获取此数据并将其转储到Hadoop集群中 . 我想理想地使用数据创建一个配置表 . 我想围绕python应用程序构建类似ETL过程的东西 . 例如，我每天运行运行python应用程序的etl进程，并将数据导出到集群 .

最终，这个ETL过程应该放在Jenkins上，并且应该能够在生产环境系统上运行 .

在规划此ETL过程时，我需要考虑哪些架构/设计/一般因素？

关于我应该怎么做的任何建议？我有兴趣以最简单和可行的方式做到这一点 .

提前致谢 .

2 回答