【发布时间】:2021-10-17 03:18:09
【问题描述】:
大家好,当我在 Google Cloud Dataflow 中创建自定义模板时,我努力理解发生了什么,但未能理解。感谢 GCP 文档。以下是我正在实现的目标。
- 从谷歌云桶读取数据
- 对其进行预处理
- 加载深度学习模型(每个 1 GB)并获得预测
- 将结果转储到 BigQuery 中。
我成功创建了模板,并且能够执行该作业。但我有以下问题。
- 当我执行作业时,每次执行期间下载模型(5 个模型,每个 1GB)OR 加载模型并将其放置在模板(执行图)中,并在执行期间使用加载的
- 如果仅在作业执行期间加载模型,那么它不会影响执行时间吗?因为每次触发作业时都必须加载 GB 的模型文件?
- 多个用户可以同时触发同一个模板吗?由于我想生产它,我不确定这将如何同时处理多个请求?
谁能分享一些关于它的信息?
我参考但未能得到答案的来源:https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-jobhttp://alumni.media.mit.edu/~wad/magiceight/isa/node3.htmlhttps://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-executionhttps://beam.apache.org/documentation/basics/https://beam.apache.org/documentation/runtime/model/https://mehmandarov.com/apache-beam-pipeline-graph/
【问题讨论】:
标签: google-cloud-platform google-cloud-dataflow pipeline apache-beam computation-graph