【问题标题】:Build a docker image for google bigquery为 google bigquery 构建 docker 镜像
【发布时间】:2018-08-06 08:45:00
【问题描述】:

我在 Google BigQuery 上有大量数据(数百 Gigas),并且为了易于使用(许多查询后处理),我正在使用 bigquery python 包。问题是每当我关闭笔记本电脑时,我都必须再次运行所有查询,这非常昂贵,因为我的数据集大约是 1 Tera。我想到了 Google Compute Engine,但这是一个糟糕的解决方案,因为如果我不阻止它们,我仍然会为我的机器付费。我的最后一个解决方案是在我们自己的沙箱上挂载一个 docker 映像,这更便宜,并且可以完全满足我的要求。所以我想知道是否有人为 BigQuery 安装了 docker 映像?感谢您的帮助!

【问题讨论】:

    标签: python docker google-bigquery


    【解决方案1】:

    我们将所有 python/bigquery 项目挂载到 docker 容器中,并将它们推送到谷歌云注册表。

    可以使用 Google Cloud Composer (Airflow) 处理自动调度、依赖关系图和日志记录。它的设置非常简单,Airflow 有一个 Kubernetes Pod Operator,它允许你指定一个 python 文件在 GCR 上的 docker 镜像中运行。您可以使用此工作流程来确保您的所有查询和 python 脚本都在 GCP 上运行,而不必担心 Google Compute Engine 或任何 devops 类型的事情。

    https://cloud.google.com/composer/docs/how-to/using/using-kubernetes-pod-operator https://cloud.google.com/composer/

    【讨论】:

    • 感谢您的回答。到那时,我最终会转移到他们的网络客户端,在那里我可以保存我的输出。
    猜你喜欢
    • 2020-10-06
    • 2017-12-22
    • 1970-01-01
    • 2017-09-15
    • 2022-01-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-11-10
    相关资源
    最近更新 更多