【问题标题】:Loading data from google cloud storage to BigQuery将数据从谷歌云存储加载到 BigQuery
【发布时间】:2017-02-10 17:25:55
【问题描述】:

我需要从 Google Cloud Storage(GCS -> 临时表 -> 主表)将 100 个表加载到 BigQuery。我创建了一个 python 进程来将数据加载到 BigQuery 并在 AppEngine 中安排。因为我们有 AppEngine 的最大 10 分钟超时。我已经以异步模式提交了作业,并稍后检查了作业状态。由于我有 100 个表需要创建一个监控系统来检查工作负载的状态。

需要维护几个表和一堆视图来检查作业状态。

操作过程并不复杂。有没有更好的办法?

谢谢

【问题讨论】:

  • 能否请您总结一下您所做的步骤,也许可以改进。
  • 能否请您一步一步告诉我,您是如何在 appengine 中创建 python 进程并安排它的使用 python 使用 appengine 的表?

标签: google-app-engine google-bigquery google-cloud-storage


【解决方案1】:

当我们这样做的时候,我们只是使用了一个像 Beanstalkd 这样的消息队列,在那里我们推送了一些稍后必须检查的东西,我们编写了一个订阅频道并处理任务的小工作人员。

另一方面:BigQuery 支持直接从 Google Cloud Storage 查询数据。

用例:
- 通过从联合数据源(BigQuery 外部的位置)查询数据并将清理后的结果写入 BigQuery 存储,一次性加载和清理数据。
- 有少量频繁更改的数据与其他表连接。作为联邦数据源,频繁变化的数据不需要每次更新都重新加载。

https://cloud.google.com/bigquery/federated-data-sources

【讨论】:

    猜你喜欢
    • 2016-06-07
    • 2018-10-30
    • 2014-01-07
    • 1970-01-01
    • 2019-09-22
    • 1970-01-01
    • 1970-01-01
    • 2018-10-11
    • 1970-01-01
    相关资源
    最近更新 更多