我正在设计一个解决方案,其中Google Cloud SQL将用于存储来自应用程序常规功能的所有数据(OLTP数据的种类) . 预计数据会随着时间的推移而增长到相当大的规模 . 数据本身具有关系性,因此我们选择了Cloud SQL而不是Cloud Datastore .
这些数据需要被提供给Big Query进行分析,这需要接近实时分析(作为最佳情况),尽管实际上可以预期一些滞后 . 但我正在尝试设计一种解决方案,将这种滞后降低到最低限度 .
我的问题有3个部分 -
-
我是否应该使用Cloud SQL存储数据,然后将其移至BigQuery或更改基本设计本身,并使用BigQuery初始存储数据? BigQuery是否适合用于常规,低延迟的OLTP工作负载?(我不这么认为 - 我的假设是正确的吗?)
-
将Cloud SQL数据加载到BigQuery并使此集成接近实时的建议/最佳实践是什么?
-
Cloud 数据流是一个不错的选择吗?如果我将Cloud SQL连接到Cloud DataFlow并进一步连接到BigQuery - 它会起作用吗?或者有没有其他方法可以实现这一目标更好(如问题2中所述)?
1 回答
看看WePay如何做到这一点:
通过Airflow,他们设法每15分钟将BigQuery与MySQL数据库保持同步 .