【问题标题】:SQL Remove almost duplicate rowsSQL 删除几乎重复的行
【发布时间】:2011-06-01 18:47:02
【问题描述】:

我有一个包含非常糟糕的数据的表,我正在尝试过滤掉一些数据。我确信 LName、FName 组合是唯一的,因为数据集小到可以验证。

LName, FName, Email
-----  -----  -----
Smith  Bob    bsmith@example.com
Smith  Bob    NULL
Doe    Jane   NULL
White  Don    dwhite@example.com

我想让查询结果带回没有 NULL 电子邮件的“重复”记录,但在没有重复时仍然带回 NULL 电子邮件。

例如

Smith Bob   bsmith@example.com
Doe   Jane  NULL
White Don   dwhite@example.com

我觉得解决方案类似于Sql, remove duplicate rows by value,但是我不太明白提问者的要求是否和我一样。

有什么建议吗?

谢谢

【问题讨论】:

  • 感谢 Cyber​​nate 和 Michael Goldshteyn 提供的解决方案。与 FooLman b/c 一起使用,这是完成这项工作的第一个解决方案。看到不同的解决方法很有趣。

标签: sql-server tsql sql-server-2008 filter duplicate-data


【解决方案1】:

您可以使用 ROW_NUMBER() 解析函数:

SELECT *
  FROM (
                SELECT a.*, ROW_NUMBER() OVER(PARTITION BY LName, FName ORDER BY Email DESC) rnk
                    FROM <YOUR_TABLE> a
                ) a
WHERE RNK = 1

【讨论】:

  • +1 这可能比自连接更有效。此技术可用于删除以及根据我的回答。
【解决方案2】:

如果有任何非空值,这将删除空行。

SELECT  lname
        , fname
        , MIN(email)
FROM    YourTable
GROUP BY
        lname
        , fname

测试脚本

DECLARE @Test TABLE (
  LName VARCHAR(32)
  , FName VARCHAR(32)
  , Email VARCHAR(32)
)

INSERT INTO @Test
  SELECT 'Smith', 'Bob', 'bsmith@example.com'
  UNION ALL SELECT 'Smith', 'Bob', 'NULL'
  UNION ALL SELECT 'Doe', 'Jane', 'NULL'
  UNION ALL SELECT 'White', 'Don', 'dwhite@example.com'

SELECT  lname
        , fname
        , MIN(Email)        
FROM    @Test
GROUP BY
        lname
        , fname

【讨论】:

  • +1 这是迄今为止发布的最简单解决方案,可以满足要求。社区似乎受到过度工程的困扰 .
  • @Lieven - 但它不会工作!如果没有任何非空行,哪里有什么逻辑可以保留空行?
  • @Martin,查询会生成 op 为给定输入请求的输出,不是吗(或者我又搞砸了)?
  • @Lieven - 啊,我知道这是给记录保留而不是删除的记录。对不起!和你一样!
  • @Martin,我认为 OP 不想删除任何记录,他只想要一个 select 语句。
【解决方案3】:

这是一个相对简单的查询,它使用标准 SQL 并执行此操作:

SELECT * FROM Person P
WHERE Email IS NOT NULL OR -- Take all people with non-null e-mails
      Email IS NULL AND    -- and all people with null e-mails, as long as
        NOT EXISTS         -- there is no duplicate record of the same person
          (SELECT *        -- with a non-null e-mail
           FROM Person P2 
           WHERE P2.LName=P.LName AND P2.FName=P.FName AND P2.Email IS NOT NULL)

【讨论】:

  • 你是在暗示row_number 不是标准SQL?
  • 我并不是在暗示任何事情——只是提供一个简单的解决方案,它只使用一个涉及子选择的标准 SQL 查询。但是,如果您想回答有关 ROW_NUMBER 的问题,不,它不是标准 SQL,PARTITION BY 也不是。
  • ANSI SQL 1999 according to here 无论如何,OP 都没有指定标准 SQL。
【解决方案4】:

由于已经发布了大量的 SQL 解决方案,您可能需要创建一个数据修复以删除不良数据,然后添加必要的约束以防止插入不良数据。数据库中的不良数据是不良设计的副作用。

【讨论】:

  • 我同意并理解,但在企业 IT 领域我无能为力。这是我必须处理的数据的现实。
  • @jrm82,在企业应用程序中修复此类问题更为重要!仅仅因为它是 apin 并不意味着你不应该这样做。如果你不修复,这将永远导致无穷无尽的问题。
  • HLGEM - 我不“拥有”数据,也没有能力做任何我想做的事情。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-01-21
  • 2021-04-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多