带有 where 子句的 Google Bigquery 表装饰器答案

【问题标题】：Google Bigquery table decorator with where clause带有 where 子句的 Google Bigquery 表装饰器
【发布时间】：2015-03-21 05:53:44
【问题描述】：

据说餐桌装饰更划算，所以我做了测试：

从 [myDataSet.myTable@-86400000--30000] 中选择计数（不同 ID）

它显示只有 15.6 GB 数据将被扫描有效：此查询在运行时将处理 15.6 GB。

当我添加 where 子句时，它显示它将处理超过两倍的数据大小：

从 [myDataSet.myTable@-86400000--30000] 中选择计数（不同 ID），其中 col='something' 有效：此查询在运行时将处理 34.0 GB。***

为什么会有差异？我该如何避免呢？

【问题讨论】：

【解决方案1】：

如果 col 不是“distinct ID”，那么这是正常的。

Big Query 的“已处理大小”取决于它需要扫描的 COLUMNS 数量。如果您在退货中将 col 放在 distinctID 之上，则需要同时读取两者。大小加倍有意义，不是吗？

尝试检查select distinctID, col from [myDataSet.myTable@-86400000--30000] 的数据量。我感觉会是一样的:)

【讨论】：