如何从bigquery中的字符串中提取子集答案

【问题标题】：How extract subsets from string in bigquery如何从bigquery中的字符串中提取子集
【发布时间】：2017-03-06 15:02:02
【问题描述】：

我有一个由 4 个部分组成的字符串变量，看起来像这样：

social_CA_FR_bloom_build

或者这个：

 social_DE_bloom_trgj4_67

（以及这个的不同变体）。

如何在 BigQuery 中编写正则表达式来提取子集，以便构建包含第一部分（社交）、第二部分 (CA_FR or DE etc）、第三部分（bloom）和第四部分（trgj4_67 or build, etc）的新列?

我已经试过了：

regexp_extract(field, "([^_]+)_([A-Z]{2}[_A-Z]*)_([^_]+)_(.+)", 1)

在 SQL (hive) 中有效，但在 BQ 中无效，因为它无法识别 (string, string, integer)。

我正在考虑用连字符替换 CA_FR 之间的下划线（应该放在一起并且只出现在几行中，通常只有两个大写字母），然后在字符串上使用 SPLIT 而不是 regex_extract，但我'不知道该怎么做/如果这是解决方案。

任何帮助将不胜感激！

【问题讨论】：

标签： sql regex google-bigquery

【解决方案1】：

一个想法是应用正则表达式，然后使用SPLIT。例如：

#standardSQL
SELECT
  parts[SAFE_OFFSET(0)] AS social,
  parts[SAFE_OFFSET(1)] AS language,
  parts[SAFE_OFFSET(2)] AS bloom,
  parts[SAFE_OFFSET(3)] AS build
FROM (
  SELECT
    SPLIT(REGEXP_REPLACE(
            label,
            r'([^_]+)_([A-Z]{2}[_A-Z]*)_([^_]+)_(.+)',
            r'\1|\2|\3|\4'),
          '|') AS parts
  FROM YourTable
);

我组成了列名——你可以使用任何你想要的名字。作为一个独立的例子：

#standardSQL
WITH YourTable AS (
  SELECT 'social_CA_FR_bloom_build' AS label UNION ALL
  SELECT 'social_DE_bloom_trgj4_67' AS label
)
SELECT
  parts[SAFE_OFFSET(0)] AS social,
  parts[SAFE_OFFSET(1)] AS language,
  parts[SAFE_OFFSET(2)] AS bloom,
  parts[SAFE_OFFSET(3)] AS build
FROM (
  SELECT
    SPLIT(REGEXP_REPLACE(
            label,
            r'([^_]+)_([A-Z]{2}[_A-Z]*)_([^_]+)_(.+)',
            r'\1|\2|\3|\4'),
          '|') AS parts
  FROM YourTable
);

【讨论】：