【发布时间】:2013-08-01 17:20:27
【问题描述】:
假设我在两个表中有大约 25,000 条记录,并且每个表中的数据应该相同。如果我需要查找表 A 中但不在表 B 中的任何行,那么最有效的方法是什么。
我们已经将它作为一个表的子查询和NOT IN 的结果进行了尝试,但这运行了 10 多分钟,几乎使我们的网站崩溃。
一定有更好的方法。也许是JOIN?
【问题讨论】:
假设我在两个表中有大约 25,000 条记录,并且每个表中的数据应该相同。如果我需要查找表 A 中但不在表 B 中的任何行,那么最有效的方法是什么。
我们已经将它作为一个表的子查询和NOT IN 的结果进行了尝试,但这运行了 10 多分钟,几乎使我们的网站崩溃。
一定有更好的方法。也许是JOIN?
【问题讨论】:
希望LEFT OUTER JOIN 能完成这项工作
select t1.similar_ID
, case when t2.similar_ID is not null then 1 else 0 end as row_exists
from table1 t1
left outer join (select distinct similar_ID from table2) t2
on t1.similar_ID = t2.similar_ID // your WHERE goes here
【讨论】:
I would suggest you read the following blog post, which goes into great detail on this question:
哪种方法最好选择一个表中存在但缺失的值 在另一个?
经过深入分析,得出以下结论:
但是,这三种方法[
NOT IN,NOT EXISTS,LEFT JOIN] 生成三个不同的计划,由三个不同的执行 段代码。执行EXISTS谓词的代码大约是30% 比执行index_subquery和LEFT JOIN的效率低 优化为使用Not exists方法。这就是为什么在 MySQL 中搜索缺失值的最佳方法是使用
LEFT JOIN/IS NULL或NOT IN而不是NOT EXISTS。
如果您使用NOT IN 看到的性能不令人满意,您将无法通过切换到LEFT JOIN / IS NULL 或NOT EXISTS 来提高此性能,而是需要采取优化此查询的不同途径,例如添加索引。
【讨论】:
LEFT JOIN 花费的时间是其他方法的两倍......但是NOT IN 和NOT EXISTS 彼此相差 2%,我仍然建议 OP 考虑索引这些表,因为两个 25k 行的表之间的反连接应该需要几毫秒,而不是几分钟。
Select * from A where not exists(select * from B);
【讨论】:
not exists,使其更快。我不是在问你,我只是想知道。
左连接。来自the mysql documentation
如果ON或USING中右表没有匹配行 在 LEFT JOIN 中,所有列都设置为 NULL 的行用于 正确的表。您可以使用这个事实来查找表中的行 在另一个表中没有对应项:
SELECT left_tbl.* FROM left_tbl LEFT JOIN right_tbl ON left_tbl.id = right_tbl.id WHERE right_tbl.id 为空;
此示例查找 left_tbl 中 id 值不是 存在于 right_tbl 中(即,left_tbl 中的所有行没有 right_tbl 中的对应行)。
【讨论】: