SQL：元组比较答案

【问题标题】：SQL: tuple comparisonSQL：元组比较
【发布时间】：2011-07-27 06:38:46
【问题描述】：

在我当前的应用程序中，我需要能够执行这种类型的查询：

SELECT MIN((colA, colB, colC)) 
FROM mytable
WHERE (colA, colB, colC) BETWEEN (200, 'B', 'C') AND (1000, 'E', 'F')

得到(333, 'B', 'B')的答案，给定这个数据：

+------+------+------+
| colA | colB | colC |
+------+------+------+
|   99 | A    | A    |
|  200 | A    | Z    |
|  200 | B    | B    |
|  333 | B    | B    |
|  333 | C    | D    |
|  333 | C    | E    |
|  333 | D    | C    |
| 1000 | E    | G    |
| 1000 | F    | A    |
+------+------+------+

在实际 SQL 中实现此目的最有效的方法是什么？请记住，这是一个玩具示例，并且我的实际应用程序具有具有不同列和数据类型以及数亿行的表。我使用 MySQL，如果有帮助的话。您还可以假设这些列上有 PRIMARY 或 UNIQUE 索引。

如果解决方案可以轻松扩展到更多/更少的列，那就更好了。

元组比较：

有几个人问过，所以我应该把这个放在问题中。元组按字典顺序排列，这意味着序列的顺序与它们的第一个不同元素相同。例如，(1,2,x)

值得注意的是，SQL（或至少是 mysql）正确地实现了这一点：

mysql> select (200, 'B', 'C') < (333, 'B', 'B') and (333, 'B', 'B') < (1000, 'E', 'F');
+--------------------------------------------------------------------------+
| (200, 'B', 'C') < (333, 'B', 'B') and (333, 'B', 'B') < (1000, 'E', 'F') |
+--------------------------------------------------------------------------+
|                                                                        1 |
+--------------------------------------------------------------------------+
1 row in set (0.00 sec)

这是创建示例所需的 SQL：

create table mytable select 333 colA, 'B' colB, 'B' colC;
insert into mytable values (200, 'B', 'B'), (333, 'C', 'D'), (1000, 'E', 'G'), 
    (200, 'A', 'Z'), (1000, 'F', 'A'), (333, 'C', 'E'), (333, 'D', 'C'),
    (99, 'A', 'A');
alter table mytable add unique index myindex (colA, colB, colC);

添加这个索引似乎会导致表格按字典顺序排序，这很有趣。在我们的生产系统中并非如此。

【问题讨论】：

如何定义元组排序？
为了记录，('B', 'K', 'K') 的行不会满足BETWEEN 条件，对吧？
@ypercube：是的。 (B,K,K) 在 (A,B,C) 和 (D,E,F) 之间排序
@John Douthat：按字典顺序排列，这意味着序列的顺序与它们的第一个不同元素相同。例如，(1,2,x) < (1,2,y) 返回的结果与 x < y 相同。

标签： mysql sql aggregate-functions row-value-expression

【解决方案1】：

只要做：

SELECT colA
     , colB
     , colC
FROM mytable
WHERE ( ('A',  'B',  'C') <= (colA, colB, colC ) )
  AND ( (colA, colB, colC) <= ('D',  'E',  'F' ) )
ORDER BY colA, colB, colC
LIMIT 1
;

它工作得很好。而且我怀疑它也应该很快。

这是等效的，但它可能具有更好的性能，具体取决于您的表：

SELECT m.colA
     , m.colB
     , m.colC
FROM mytable m
WHERE ( ('A',  'B',  'C') <= (m.colA, m.colB, m.colC) )
  AND ( (m.colA, m.colB, m.colC) <= ('D',  'E',  'F') )
  AND NOT EXISTS
  ( SELECT 1
    FROM mytable b
    WHERE (b.colA, b.colB, b.colC) < (m. colA, m.colB, m.colC)
      AND ( ('A',  'B',  'C') <= (b.colA, b.colB, b.colC) )
  );

【讨论】：

完美！您应该删除其他答案。
如果
@Cade：我的观点完全正确，“因为 BETWEEN 不起作用，我没有尝试过

【解决方案2】：

---EDIT---：（删除了以前的错误试验）

第二次尝试（不是真正的关系代数）。

这有效，但仅当字段为 char(1) 时：

SELECT colA, colB, colC
FROM mytable
WHERE CONCAT(colA, colB, colC)
      BETWEEN CONCAT('A', 'B', 'C')
      AND CONCAT('D', 'E', 'F')
ORDER BY colA, colB, colC
LIMIT 1 ;

我认为显示mytable 中小于或等于同一表的元组的所有元组组合的视图可能会有所帮助，因为它可以用于其他比较：

CREATE VIEW lessORequal AS
( SELECT a.colA AS smallA
       , a.colB AS smallB
       , a.colC AS smallC
       , b.colA AS largeA
       , b.colB AS largeB
       , b.colC AS largeC
  FROM mytable a
    JOIN mytable b
      ON (a.colA < b.colA)
         OR ( (a.colA = b.colA)
               AND ( (a.colB < b.colB)
                     OR (a.colB = b.colB
                        AND a.colC <= b.colC)
                   )
            )
  ) ;

使用类似的技术，这解决了这个问题。它适用于任何类型的字段（int、float、任何长度的 char）。如果尝试添加更多字段，这会有点尴尬和复杂。

SELECT colA, colB, colC
FROM mytable m
WHERE ( ('A' < colA)
        OR ( ('A' = colA)
              AND ( ('B' < colB)
                    OR ('B' = colB
                       AND 'C' <= colC)
                  )
           )
      )
  AND ( (colA < 'D')
         OR ( (colA = 'D')
              AND ( (colB < 'E')
                    OR (colB = 'E'
                       AND colC <= 'F')
                  )
            )
      )
ORDER BY colA, colB, colC
LIMIT 1 ;

还定义一个函数：

CREATE FUNCTION IslessORequalThan( lowA CHAR(1)
                                 , lowB CHAR(1)
                                 , lowC CHAR(1)
                                 , highA CHAR(1)
                                 , highB CHAR(1)
                                 , highC CHAR(1)
                                 )
RETURNS boolean
RETURN ( (lowA < highA)
         OR ( (lowA = highA)
               AND ( (lowB < highB)
                     OR ( (lowB = highB)
                          AND (lowC <= highC)
                        )
                   )
            )
       );

并用它来解决相同或相似的问题。这又解决了这个问题。查询很优雅，但如果字段类型或数量发生变化，则必须创建一个新函数。

SELECT colA
     , colB
     , colC
FROM mytable 
WHERE IslessORequalThan(  'A',  'B',  'C', colA, colB, colC )
  AND IslessORequalThan( colA, colB, colC,  'D',  'E',  'F' )
ORDER BY colA, colB, colC
LIMIT 1;

直到那时，因为条件

(colA, colB, colC) BETWEEN ('A', 'B', 'C') AND ('D', 'E', 'F')

在 MySQL 中是不允许的，我认为

('A', 'B', 'C') <= (colA, colB, colC)

也是不允许的。但我错了。

【讨论】：

统计所有满足相同条件的行？
这个答案有效，但根据我的经验，OR 是性能灾难。你认为有更好的方法吗？
我认为你应该测试一下它是否是灾难。我暂时想不出别的了。
天哪，我刚刚在 MySQL 中尝试了一些东西，它可以工作。我会发布一个新的答案！