【发布时间】:2019-09-13 20:00:03
【问题描述】:
我有一个包含 >70M 行数据和 2M 重复数据的表。我想通过保留最近的原始行来清除重复项。
我从这里找到了一些解决方案 - link
其中,解决方案只是清除重复项,不保留重复项之间的最新数据。
这是另一个常见的解决方案:
;WITH cte
AS (SELECT Row_number() OVER (partition BY id ORDER BY
updatedAt
DESC,
status DESC) RN
FROM MainTable)
DELETE FROM cte
WHERE RN > 1
但 BigQuery 不支持它。
【问题讨论】:
标签: google-bigquery