我想知道在BigQuery中使用分区表的用法是什么 . 似乎大多数查询似乎需要大约相同的时间来完成而不管大小(忽略极端,我正在推广),这主要是使用它来降低处理字节的成本,或者主要用途是什么在BQ中分区表的情况?
https://cloud.google.com/bigquery/docs/creating-column-partitions
我想知道在BigQuery中使用分区表的用法是什么 . 似乎大多数查询似乎需要大约相同的时间来完成而不管大小(忽略极端,我正在推广),这主要是使用它来降低处理字节的成本,或者主要用途是什么在BQ中分区表的情况?
https://cloud.google.com/bigquery/docs/creating-column-partitions
1 回答
有多种好处,主要是成本 .
通过将查询编写为只读,例如:7天的分区而不是7年,您的成本更低
_909_分区,如果超过90天,您不会触摸,但成本较低
你可以清楚地重新加载一天的数据比不得不解决
你仍然建议你使用YEARly表格,例如mytable_2018,但你不再需要每日表格,例如:mytable_20180101,这进一步导致查询更简单,读取超过1000个表格也不再是一个问题(这很难限制) .
修改架构时,需要修改几个表,不再需要在数千个表上更改脚本
这也意味着它处理好的lover字节,并且可以更好地优化 Cloud 平台并且需要更少的资源
通过将数据重新组织到分区表中,查询时间将来会受益 . 随着客户将移动数据, Cloud 工程团队将优化服务以更好地使用 .
如果现有数据至少为几TB,您会看到明显的成本效益 .