【问题标题】:Find records from one table which don't exist in another从一个表中查找另一个表中不存在的记录
【发布时间】:2010-09-26 22:35:09
【问题描述】:

我有以下两个表(在 MySQL 中):

Phone_book
+----+------+--------------+
| id | name | phone_number |
+----+------+--------------+
| 1  | John | 111111111111 |
+----+------+--------------+
| 2  | Jane | 222222222222 |
+----+------+--------------+

Call
+----+------+--------------+
| id | date | phone_number |
+----+------+--------------+
| 1  | 0945 | 111111111111 |
+----+------+--------------+
| 2  | 0950 | 222222222222 |
+----+------+--------------+
| 3  | 1045 | 333333333333 |
+----+------+--------------+

我如何找出phone_number 不在Phone_book 中的人拨打了哪些电话?期望的输出是:

Call
+----+------+--------------+
| id | date | phone_number |
+----+------+--------------+
| 3  | 1045 | 333333333333 |
+----+------+--------------+

【问题讨论】:

    标签: sql mysql


    【解决方案1】:

    有几种不同的方法可以做到这一点,效率各不相同,具体取决于您的查询优化器有多好,以及您的两个表的相对大小:

    这是最短的语句,如果您的电话簿很短,可能是最快的:

    SELECT  *
    FROM    Call
    WHERE   phone_number NOT IN (SELECT phone_number FROM Phone_book)
    

    或者(感谢Alterlife

    SELECT *
    FROM   Call
    WHERE  NOT EXISTS
      (SELECT *
       FROM   Phone_book
       WHERE  Phone_book.phone_number = Call.phone_number)
    

    或(感谢 WOPR)

    SELECT * 
    FROM   Call
    LEFT OUTER JOIN Phone_Book
      ON (Call.phone_number = Phone_book.phone_number)
      WHERE Phone_book.phone_number IS NULL
    

    (忽略这一点,正如其他人所说,通常最好只选择您想要的列,而不是'*')

    【讨论】:

    • 避免 IN,使用 EXISTS - 提示在问题标题中
    • 左外连接在一般情况下可能是最快的,因为它可以防止重复执行子查询。
    • 不要挑剔,但我建议的子查询返回 select 'x' 而不是 select *
    • 是的 - MySQL 手册建议这对于 'EXISTS' 查询是正常的
    • @Alnitak:在第二个查询中,子查询中不需要SELECT *。相反,例如,SELECT 1 应该足够漂亮。
    【解决方案2】:
    SELECT Call.ID, Call.date, Call.phone_number 
    FROM Call 
    LEFT OUTER JOIN Phone_Book 
      ON (Call.phone_number=Phone_book.phone_number) 
      WHERE Phone_book.phone_number IS NULL
    

    应该删除子查询,让查询优化器发挥它的魔力。

    此外,请避免使用“SELECT *”,因为如果有人更改基础表或视图,它可能会破坏您的代码(而且效率低下)。

    【讨论】:

    • 这通常是最有效的方法,因为它不会在第二张桌子上执行多次传递......希望有些人正在阅读评论。
    • 我宁愿希望人们介绍一下:除非您是顶级 SQL 性能专家,否则提前告诉什么最快是相当困难的(并且取决于您使用的 DBMS 引擎)。跨度>
    • Big O 符号很容易告诉你在这种情况下你可以期望最快的速度。数量级不同。
    • 如果您的两个表之间存在1:N 关系,请参见Afterlife's answer 和我的评论。或添加DISTINCT,如Vlado's answer中所示
    【解决方案3】:

    在处理更大的数据集时,下面的代码会比上面给出的答案更有效。

    SELECT *
    FROM Call
    WHERE NOT EXISTS (
        SELECT 'x'
        FROM Phone_book
        WHERE Phone_book.phone_number = Call.phone_number
    );
    

    【讨论】:

    • 与往常一样,有必要针对目标数据集分析查询的性能,以选择性能最佳的一个。如今,SQL 优化器已经足够好,以至于性能结果常常令人惊讶。
    • 这种方法的一个优点(与 WOPR 的 LEFT OUTER JOIN 相比)是,如果 Phone_book 中有多个匹配行,它可以避免在 Call 的每行返回多行。也就是说,如果您的两个表之间存在1:N 关系。
    • 我会从这个开始——它直接代表了意图。如果性能不够好,请确保存在适当的索引。只有这样,尝试不太明显的LEFT OUTER JOIN,看看它的性能是否更好。
    【解决方案4】:
    SELECT DISTINCT Call.id 
    FROM Call 
    LEFT OUTER JOIN Phone_book USING (id) 
    WHERE Phone_book.id IS NULL
    

    这将返回您的 Phone_book 表中缺少的额外 ID。

    【讨论】:

      【解决方案5】:

      我觉得

      SELECT CALL.* FROM CALL LEFT JOIN Phone_book ON 
      CALL.id = Phone_book.id WHERE Phone_book.name IS NULL
      

      【讨论】:

      • call 表中的id 列与Phone_book 表中的id 列的值不同,因此您无法加入这些值。有关类似方法,请参阅 WOPR 的答案。
      【解决方案6】:
      SELECT t1.ColumnID,
      CASE 
          WHEN NOT EXISTS( SELECT t2.FieldText  
                           FROM Table t2 
                           WHERE t2.ColumnID = t1.ColumnID) 
          THEN t1.FieldText
          ELSE t2.FieldText
      END FieldText       
      FROM Table1 t1, Table2 t2
      

      【讨论】:

      • 如果同一列的另一个表中没有数据,这将返回一个表中的数据
      【解决方案7】:
      SELECT name, phone_number FROM Call a
      WHERE a.phone_number NOT IN (SELECT b.phone_number FROM Phone_book b)
      

      【讨论】:

      • 这并没有提供问题的答案。要批评或要求作者澄清,请在他们的帖子下方留下评论。 - From Review
      • @DennisKriechel 更新了查询,使其更具体地针对问题。
      【解决方案8】:

      或者,

      select id from call
      minus
      select id from phone_number
      

      【讨论】:

      • 不确定这是否能按原样回答问题(尽管 MINUS)运算符是新增的。这最终进入了低质量队列 - 您可能希望增强此答案。
      【解决方案9】:

      别忘了检查你的索引!

      如果您的表格很大,您需要确保电话簿在phone_number 字段上有索引。对于大型表,数据库很可能会选择同时扫描这两个表。

      SELECT *
      FROM   Call
      WHERE  NOT EXISTS
        (SELECT *
         FROM   Phone_book
         WHERE  Phone_book.phone_number = Call.phone_number)
      

      您应该同时创建包含phone_numberPhone_BookCall 索引。如果性能成为问题,请尝试这样的精简索引,仅使用电话号码:

      字段越少越好,因为它必须完全加载它。您需要两个表的索引。

      ALTER TABLE [dbo].Phone_Book ADD CONSTRAINT [IX_Unique_PhoneNumber] UNIQUE NONCLUSTERED 
      (
          Phone_Number
      )
      WITH (STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ONLINE = ON) ON [PRIMARY]
      GO
      

      如果您查看查询计划,它将看起来像这样,您可以确认您的新索引实际上正在被使用。请注意,这适用于 SQL Server,但对于 MySQL 应该类似。

      对于我展示的查询,除了扫描两个表中的每条记录之外,实际上没有其他方法可以让数据库产生结果。

      【讨论】:

        猜你喜欢
        • 2015-08-27
        • 2020-05-11
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-06-20
        • 2012-08-30
        • 1970-01-01
        相关资源
        最近更新 更多