首页 文章

使用Python中的Dataflow Pipeline将数据从Google Datastore传输到Bigquery

提问于
浏览
0

我们遇到了从Google Cloud Datastore到Bigquery的数据传输问题 . 我们需要在python中为这个作业创建数据流脚本 . 这个作业应该通过在python中使用管道将数据从数据存储区传输到bigquery . 对于python中的这项工作,它需要“Apache Beam”库 . 但Apache Beam库不起作用 . 有人可以帮助我们吗?

1 回答

  • 1

    适用于Google的Google Cloud Dataflow SDK已准备就绪,目前在Google Cloud Platform中支持Beta级别 . 它基于Apache Beam代码库 . 请按照Quickstart开始使用此SDK . 如果您看到特定错误,请提出单独的问题并引用具体问题 .

    也就是说,SDK for Python尚未提供直接访问Google Cloud Datastore的API . 您可以使用通用 SourceSink API编写一个 . 这并不难,但也不是微不足道的 . 这是我们正在积极开展的工作,Python SDK将在不久的将来包含此API .

    同时,我建议也许尝试SDK for Java来完成这项任务,其中包括 DatastoreIOBigqueryIO API .

相关问题