【问题标题】:Merge left on load data from BigQuery合并来自 BigQuery 的加载数据
【发布时间】:2020-08-26 22:21:28
【问题描述】:

我有一个输入表:input 和一个或多个maptables,其中输入包含多个标识符的数据和彼此堆叠的日期。架构如下:

#input
Id: string (might contain empty values)
Id2: string (might contain empty values)
Id3: string (might contain empty values)
Date: datetime
Value: number

#maptable_1
Id: string
Id2: string
Target_1: string

#maptable_2
Id3: string
Target_2: string

我现在要做的是运行一个管道,该管道为每个date/(id, id2, id3) 组合加载来自input 的数据,并在python 中对一个或多个maptables 应用左合并(均作为DataFrame)。然后我将结果流式传输到名为output 的第三个表,其架构如下:

#output
Id: string
Id2: string
Id3: string 
Date: datetime
Value: number
Target_1: string (from maptable_1)
Target_2: string (from maptable_2)
Target_x: ...

现在我在想这不是很有效。如果我从映射表中更改一个值,我必须为每个 date/(id, id2, id3) 组合重做所有管道。

  • 因此我想知道是否可以在加载数据时直接应用左合并?这样的查询会是什么样子?

  • 在多个映射表和目标列的情况下,这样做是否也有好处?查询不会变得太复杂或不可读,尤其是在 id 列不同的情况下?

【问题讨论】:

  • 样本数据以文本表格格式和期望的结果将使问题更清楚,尤其是对于数据库人员。
  • 为什么不将您的逻辑表达为一个简单的查询并将语句插入输出表?这是你要找的吗?

标签: sql google-bigquery


【解决方案1】:

这样的查询会是什么样子?

以下是 BigQuery 标准 SQL

INSERT `project.dataset.output`  
SELECT *
FROM `project.dataset.input` i
LEFT JOIN `project.dataset.maptable_1` m1 USING(id, id2)
LEFT JOIN `project.dataset.maptable_2` m2 USING(id3)  

在多个映射表和目标列的情况下...

如果您的所有映射表都与您问题中的两个映射相同/相似 - 在这种情况下,每个额外映射只是额外的 LEFT JOIN

【讨论】:

  • 很高兴它对你有用。如果还没有,也请考虑投票:o)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-12-09
  • 1970-01-01
  • 1970-01-01
  • 2021-03-26
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多