首页 文章

如何将Google Cloud SQL与Google Big Query集成

提问于
浏览
1

我正在设计一个解决方案,其中Google Cloud SQL将用于存储来自应用程序常规功能的所有数据(OLTP数据的种类) . 预计数据会随着时间的推移而增长到相当大的规模 . 数据本身具有关系性,因此我们选择了Cloud SQL而不是Cloud Datastore .

这些数据需要被提供给Big Query进行分析,这需要接近实时分析(作为最佳情况),尽管实际上可以预期一些滞后 . 但我正在尝试设计一种解决方案,将这种滞后降低到最低限度 .

我的问题有3个部分 -

  • 我是否应该使用Cloud SQL存储数据,然后将其移至BigQuery或更改基本设计本身,并使用BigQuery初始存储数据? BigQuery是否适合用于常规,低延迟的OLTP工作负载?(我不这么认为 - 我的假设是正确的吗?)

  • 将Cloud SQL数据加载到BigQuery并使此集成接近实时的建议/最佳实践是什么?

  • Cloud 数据流是一个不错的选择吗?如果我将Cloud SQL连接到Cloud DataFlow并进一步连接到BigQuery - 它会起作用吗?或者有没有其他方法可以实现这一目标更好(如问题2中所述)?

1 回答

  • 6

    看看WePay如何做到这一点:

    MySQL to GCS运算符对MySQL表执行SELECT查询 . SELECT拉取所有大于(或等于)最后一个高水印的数据 . 高水位线是表的主键(如果表是仅附加的),或者是修改时间戳列(如果表接收更新) . 同样,SELECT语句也会返回一些时间(或行)以捕获上次查询中可能丢弃的行(由于上面提到的问题) .

    通过Airflow,他们设法每15分钟将BigQuery与MySQL数据库保持同步 .

相关问题