如何在每次上传存储桶时更新 Big Query 后端数据

【问题标题】：how to update Big Query back-end data on each upload for bucket如何在每次上传存储桶时更新 Big Query 后端数据
【发布时间】：2021-11-17 16:38:33
【问题描述】：

我已根据我的云存储桶中的数据创建了 Big Query。

在我的用例中，我定期将数据发送到我的 Big Query 后端的同一个存储桶（在创建 Big 查询表时，我使用了相同的存储桶名称）。

是否可以将更新后的数据导入 Big Query，因为我每次都会在某个时间间隔将新数据推送到同一个存储桶中。

顺便提一下 - 我正在从上面提到的专用存储桶中进行原生大查询。

您的帮助将不胜感激。提前致谢。

【问题讨论】：

【解决方案1】：

您可以创建一个external (federated) table on Google Cloud Storage Bucket。在这种情况下，每当您查询此表时，您都会得到最新的数据。

如果您只需要根据存储桶中的数据将数据附加到表（我们称之为目标表） - 我可以想象遵循这个过程：

在 GCS 存储桶上创建联合表
设置一个简单的 cron 作业，运行 bq 命令，该命令正在执行 select * from [federated_table] 并将结果附加到目标表中（您可能有一个更复杂的查询，它将检查目标表中的数据重复并且只追加新数据）。

备选方案：在您的存储桶上设置一个trigger 以激活云功能，在云功能中您只需将新添加的数据加载到目标表中。

【讨论】：