【发布时间】:2016-08-29 18:53:44
【问题描述】:
我有一个包含近 100 万行的表,其中有很多我想从中删除的重复数据。我想知道如何做到这一点?
表格列是:用户名、专业化、出生日期、地址、城市、州、邮编和电话。我在表中没有任何唯一 ID。
表中的各行可能有相似的名称和地址。我必须找出所有那些相似的匹配项并删除重复项。
样本数据:
Name Specialisation DOB Address Country
Alexande Loord Arts 7/2/1993 #25, Fairfax US
Alexander L Arts 7/2/1993 #25,Fairfax,VA US
在上述情况下,两条记录是相同的,只是名称的形式不同。我已识别此类案例并通过删除重复项为每个用户提供尽可能多的信息来提高我的数据质量。
如何消除此重复数据并在表中为每个用户保留 1 个唯一条目(行)?
提前感谢大家的回复。
【问题讨论】:
标签: sql sql-server duplicates data-cleaning