GCP 数据流计算图和作业执行答案

【问题标题】：GCP Dataflow Computation Graph and Job ExecutionGCP 数据流计算图和作业执行
【发布时间】：2021-10-17 03:18:09
【问题描述】：

大家好，当我在 Google Cloud Dataflow 中创建自定义模板时，我努力理解发生了什么，但未能理解。感谢 GCP 文档。以下是我正在实现的目标。

我成功创建了模板，并且能够执行该作业。但我有以下问题。

谁能分享一些关于它的信息？

【问题讨论】：

【解决方案1】：

这取决于从哪里加载模型。如果它们被加载到 DoFns 中（很可能），那么它将发生在工作人员中（在作业执行期间）。

至于您的另一个问题，多个用户同时触发模板作业应该没有问题。

【讨论】：

嗨@robertwb 非常感谢。是的，模型是在 DoFns 中加载的。加载存储在 GCS 中的 HUUGE 模型文件会影响执行时间吗？有什么办法可以避免吗？喜欢暂存模型文件？
您可以构建包含模型的自定义容器。 cloud.google.com/dataflow/docs/guides/using-custom-containers
嗨@robertwb 我尝试使用自定义容器。创建的 docker 映像将其中的模型文件并尝试使用以下命令运行管道 python3 main.py --input=dsss --experiment=use_runner_v2 --sdk_container_image=$IMAGE_URI 但我断开了 SDK 线束 sdk-0-0 .错误
这听起来像是在 users@beam.apache.org 列表上而不是在此处更容易调试（尽管我们可以返回答案）。