如何比较 BigQuery 中的两个数组？答案

【问题标题】：How do you compare two arrays in BigQuery?如何比较 BigQuery 中的两个数组？
【发布时间】：2017-04-27 19:36:44
【问题描述】：

我正在尝试加入两个表，每个表都有一个如下所示的数组列

SELECT a.id, b.value
FROM a INNER JOIN b
ON a.array IN b.array

或

SELECT a.id, b.value
FROM a INNER JOIN b
ON UNNEST(a.array) IN UNNEST(b.array)

根据this SO question，postgres 有像 和 >@ 这样的运算符来比较其中一个是否是另一个数组的子集（ postgres doc page) 但 BigQuery 只允许将数组的一个元素与另一个数组进行比较，如下所示

a.arrayelement IN UNNEST(b.array)

可以在 BigQuery 中完成吗？

编辑

这是我正在使用的架构

WITH b AS (
    {  "ip": "192.168.1.1",
      "cookie": [
        { "key": "apple",
          "value: "red"
        },
        { "key": "peach",
          "value: "pink"
        },
        { "key": "orange",
          "value: "orange"
        }
      ]
    }
    ,{  "ip": "192.168.1.2",
      "cookie": [
        { "key": "apple",
          "value: "red"
        },
        { "key": "orange",
          "value: "orange"
        }
      ]
    }
   ),
WITH a AS (
    {  "id": "12345",
      "cookie": [
        { "key": "peach",
          "value: "pink"
        }
      ]
    }
    ,{  "id": "67890",
      "cookie": [
        { "key": "apple",
          "value: "red"
        },
        { "key": "orange",
          "value: "orange"
        },

      ]
     }
)

我期待如下输出

ip, id
192.168.1.1, 67890 
192.168.1.2, 67890 
192.168.1.2, 12345

它是以下 SO 的延续， How do I find elements in an array in BigQuery 。我尝试使用子查询来比较其中一个数组的单个元素，但 BigQuery 返回一个错误，提示我有 “子查询太多”

【问题讨论】：

取决于实际的数组模式 - 这样做可以有不同的选择。您能否提供您的具体示例，这样就无需猜测要显示哪个选项
@MikhailBerlyant 始终感谢您的帮助。我添加了架构
以及基于该示例的预期输出是什么？

标签： google-bigquery

【解决方案1】：

这是一个替代解决方案，它避免在相关子查询中运行 JOIN，而是依赖于 IN UNNEST() 表达式 - 这应该会提供更好的性能：

#standardSQL
WITH a AS (
  SELECT 1 AS id, [2,4] AS a_arr UNION ALL
  SELECT 2, [3,5]
),
b AS (
  SELECT 11 AS value, [1,2,3,4] AS b_arr UNION ALL
  SELECT 12, [1,3,5,6]
)
SELECT a.id, b.value
FROM a , b
WHERE (SELECT LOGICAL_AND(a_i IN UNNEST(b.b_arr)) FROM UNNEST(a.a_arr) a_i)

【讨论】：

【解决方案2】：

试试下面的例子（BigQuery 标准 SQL）

#standardSQL
WITH a AS (
  SELECT 1 AS id, [2,4] AS a_arr UNION ALL
  SELECT 2, [3,5]
),
b AS (
  SELECT 11 AS value, [1,2,3,4] AS b_arr UNION ALL
  SELECT 12, [1,3,5,6]
)
SELECT a.id, b.value
FROM a , b , UNNEST([(SELECT ARRAY_LENGTH(a.a_arr) - COUNT(1) 
                      FROM UNNEST(a.a_arr) AS x 
                      JOIN UNNEST(b.b_arr)  AS y 
                      ON x = y)]) AS z
WHERE z = 0

它模仿下面的伪代码：

SELECT a.id, b.value
FROM a INNER JOIN b
ON a.array IN b.array

如果您希望我将其应用于您的示例，请告诉我 - 或者您将先自己尝试 :o)

【讨论】：

进展如何？需要我加入吗？
我将您的逻辑应用于我的实际架构及其工作：D 现在我正在检查它是否可以在 WITH 子句中扩展到 1000 多行。我希望 BigQuery 不会大喊大叫我
太棒了。很高兴我们做到了:o)
我确实有一个问题。用 UNNEST 包围 z 表和不包围它有什么区别？我理解逻辑，但我想剖析 SQL 并查看实际行为......但我需要 UNNEST 才能使示例代码正常工作
引入 z 是一个技巧，它允许您为每个连接组合预先创建列，以便您可以直接在 WHERE 子句中使用它。否则，您需要将相应的子选择明确地作为额外的列放在输出中，然后用另一个选择包装它，您将在其中按匹配项过滤结果。这个想法是只留下那些共同元素的数量等于表 a 中数组中的元素数量的组合。尝试更多地玩这个，让我知道是否有更多问题