【问题标题】:how to update Big Query back-end data on each upload for bucket如何在每次上传存储桶时更新 Big Query 后端数据
【发布时间】:2021-11-17 16:38:33
【问题描述】:

我已根据我的云存储桶中的数据创建了 Big Query。

在我的用例中,我定期将数据发送到我的 Big Query 后端的同一个存储桶(在创建 Big 查询表时,我使用了相同的存储桶名称)。

是否可以将更新后的数据导入 Big Query,因为我每次都会在某个时间间隔将新数据推送到同一个存储桶中。

顺便提一下 - 我正在从上面提到的专用存储桶中进行原生大查询。

您的帮助将不胜感激。提前致谢。

【问题讨论】:

    标签: google-cloud-platform google-bigquery


    【解决方案1】:

    您可以创建一个external (federated) table on Google Cloud Storage Bucket。在这种情况下,每当您查询此表时,您都会得到最新的数据。

    如果您只需要根据存储桶中的数据将数据附加到表(我们称之为目标表) - 我可以想象遵循这个过程:

    1. 在 GCS 存储桶上创建联合表
    2. 设置一个简单的 cron 作业,运行 bq 命令,该命令正在执行 select * from [federated_table] 并将结果附加到目标表中(您可能有一个更复杂的查询,它将检查目标表中的数据重复并且只追加新数据)。

    备选方案: 在您的存储桶上设置一个trigger 以激活云功能,在云功能中您只需将新添加的数据加载到目标表中。

    【讨论】:

    • 不错。从 Dataflow 到 BigQuery 的云功能也是一个不错的选择。
    猜你喜欢
    • 2012-06-13
    • 1970-01-01
    • 2012-03-16
    • 1970-01-01
    • 1970-01-01
    • 2016-07-05
    • 2016-12-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多