【发布时间】:2016-08-09 02:26:05
【问题描述】:
我有一个包含 >1M 行数据和 20 多列的表。
在我的表 (tableX) 中,我在一个特定列 (troubleColumn) 中识别出重复记录 (~80k)。
如果可能,我想保留原始表名并从有问题的列中删除重复记录,否则我可以创建一个具有相同架构但没有重复项的新表 (tableXfinal)。
我不精通 SQL 或任何其他编程语言,所以请原谅我的无知。
delete from Accidents.CleanedFilledCombined
where Fixed_Accident_Index
in(select Fixed_Accident_Index from Accidents.CleanedFilledCombined
group by Fixed_Accident_Index
having count(Fixed_Accident_Index) >1);
【问题讨论】:
-
我刚刚读到 BigQuery 表只是追加的,所以我想我需要复制我的表!
-
要对单个分区上的行进行重复数据删除,请参阅:stackoverflow.com/a/57900778/132438