【问题标题】:GCP Dataflow Computation Graph and Job ExecutionGCP 数据流计算图和作业执行
【发布时间】:2021-10-17 03:18:09
【问题描述】:

大家好,当我在 Google Cloud Dataflow 中创建自定义模板时,我努力理解发生了什么,但未能理解。感谢 GCP 文档。以下是我正在实现的目标。

  1. 从谷歌云桶读取数据
  2. 对其进行预处理
  3. 加载深度学习模型(每个 1 GB)并获得预测
  4. 将结果转储到 BigQuery 中。

我成功创建了模板,并且能够执行该作业。但我有以下问题。

  1. 当我执行作业时,每次执行期间下载模型(5 个模型,每个 1GB)OR 加载模型并将其放置在模板(执行图)中,并在执行期间使用加载的
  2. 如果仅在作业执行期间加载模型,那么它不会影响执行时间吗?因为每次触发作业时都必须加载 GB 的模型文件?
  3. 多个用户可以同时触发同一个模板吗?由于我想生产它,我不确定这将如何同时处理多个请求?

谁能分享一些关于它的信息?

我参考但未能得到答案的来源:https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-jobhttp://alumni.media.mit.edu/~wad/magiceight/isa/node3.htmlhttps://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-executionhttps://beam.apache.org/documentation/basics/https://beam.apache.org/documentation/runtime/model/https://mehmandarov.com/apache-beam-pipeline-graph/

【问题讨论】:

    标签: google-cloud-platform google-cloud-dataflow pipeline apache-beam computation-graph


    【解决方案1】:

    这取决于从哪里加载模型。如果它们被加载到 DoFns 中(很可能),那么它将发生在工作人员中(在作业执行期间)。

    至于您的另一个问题,多个用户同时触发模板作业应该没有问题。

    【讨论】:

    • 嗨@robertwb 非常感谢。是的,模型是在 DoFns 中加载的。加载存储在 GCS 中的 HUUGE 模型文件会影响执行时间吗?有什么办法可以避免吗?喜欢暂存模型文件?
    • 您可以构建包含模型的自定义容器。 cloud.google.com/dataflow/docs/guides/using-custom-containers
    • 嗨@robertwb 我尝试使用自定义容器。创建的 docker 映像将其中的模型文件并尝试使用以下命令运行管道 python3 main.py --input=dsss --experiment=use_runner_v2 --sdk_container_image=$IMAGE_URI 但我断开了 SDK 线束 sdk-0-0 .错误
    • 这听起来像是在 users@beam.apache.org 列表上而不是在此处更容易调试(尽管我们可以返回答案)。
    猜你喜欢
    • 2020-08-05
    • 2021-01-22
    • 1970-01-01
    • 2021-07-27
    • 1970-01-01
    • 2017-09-14
    • 2022-10-13
    • 1970-01-01
    • 2020-09-22
    相关资源
    最近更新 更多