在 MySQL 中按多列获取重复行答案

【问题标题】：Getting duplicate rows by several columns in MySQL在 MySQL 中按多列获取重复行
【发布时间】：2013-06-28 14:59:10
【问题描述】：

我正在尝试按大表中的几列（近 18 000 行）搜索重复行。问题是查询需要很多时间，我试过这个：

 SELECT * FROM table_name a, table_name b 
 WHERE a.col1 = b.col1 
 AND a.col2 = b.col2 
 AND a.col3 = b.col3
 AND a.col4 = b.col4 
 AND a.id <> b.id

还有这个：

SELECT *
FROM table_name 
WHERE col1 IN (
    SELECT col1 
    FROM table_name 
    GROUP BY col1 
    HAVING count(col1) > 1
    )
AND col2 IN (
    SELECT col2
    FROM table_name 
    GROUP BY col2
    HAVING count(col2) > 1
    )
AND col3 IN (
    SELECT col3
    FROM table_name 
    GROUP BY col3
    HAVING count(col3) > 1
    )
AND col4 IN (
    SELECT col4
    FROM table_name 
    GROUP BY col4
    HAVING count(col4) > 1
    )

他们都工作，但太慢了。有什么想法吗？

【问题讨论】：

我不明白为什么 Siphon 尝试使用 group by having count >1 对您不起作用。您可以发布示例数据和期望的结果吗？
他希望返回每一行。 group by 会给你一个重复的，但不是其他相同的行。因此，如果将 4 行分组在一起，那么 group by 将仅返回 1 行。这对每个人都不起作用，至少对他不起作用。

标签： mysql query-optimization

【解决方案1】：

您可以尝试使用一个联合 GROUP BY 语句，例如：

SELECT * FROM table_name
    GROUP BY col1, col2, col3, col4
    HAVING count(*) > 1

至少，它看起来会更干净。

编辑

将所有结果作为上一列的子集返回：

SELECT *
FROM table_name 
WHERE col4 IN (
  SELECT col4
  FROM table_name 
  WHERE col3 IN (
    SELECT col3
    FROM table_name 
    WHERE col2 IN (
      SELECT col2
      FROM table_name
      WHERE col1 IN (
        SELECT col1
        FROM table_name
        GROUP BY col1
        HAVING count(col1) > 1
        )
      )
    )

从概念上讲，这应该会在更快的执行时间内为您提供所有结果。

【讨论】：

感谢您的回答，但这并不能解决我的任务。我需要这些重复项，但不需要将它们分组。
我的错误。听起来您想查看是否有重复项，而不是返回所有结果。
我唯一的其他建议是使用子查询，在匹配列时减少总结果。因此，匹配 col1，然后从 col1 的结果中匹配 col2。这将避免需要为每一列匹配所有 18000 行。
查看我的编辑以了解我的意思。如果您首先定位已知没有那么多重复项的列，则可以使此运行更快。所以，最远的嵌套选择应该有尽可能少的重复。
感谢您的回复，我试过了，但它根本不工作，它冻结了一个无限循环。我尝试了此查询的“精简版”版本 - 按一列选择重复项，但它也不起作用，非常奇怪 - SELECT * FROM table WHERE col1 IN (SELECT col1 FROM table GROUP BY col1 HAVING count(col1) > 1)跨度>