【问题标题】:Add more workers to dataflow job on GCP向 GCP 上的数据流作业添加更多工作人员
【发布时间】:2019-02-08 21:32:43
【问题描述】:

我正在创建一个将 CSV 导入 BQ 的数据准备流程。这工作正常,但需要很长时间。即使对于非常小的文件。有没有办法在工作中增加更多的工人? maxNumWorkers 默认始终为 1。

溴 危机

【问题讨论】:

  • 这通常需要多长时间? CSV 文件的正常大小是多少?我问的原因是 Dataflow 和 BQ 的启动时间固定为 3 分钟(至少)。如果您的文件非常大,那么添加更多工作人员是值得的,但如果不是,那么 6 分钟的限制将尽可能低。

标签: google-cloud-platform google-cloud-dataflow google-cloud-dataprep


【解决方案1】:

Dataprep 首次执行 Dataflow 作业时,设置将是默认设置。但是,您可以使用其templates 直接从 Dataflow 重新运行具有不同参数的这些作业。例如,您可以使用REST API 并使用numWorkers 字段来指定执行作业的工作人员,因为未指定,服务将尝试选择合理的默认值。有关 REST API 的更多信息,您可以查看this document

记住它有limitations

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-08-05
    • 2021-01-22
    • 1970-01-01
    • 2015-11-12
    • 2021-08-22
    相关资源
    最近更新 更多