【发布时间】:2018-03-24 10:19:09
【问题描述】:
我目前正在研究 POC,主要关注用于 ETL 处理的数据流。我使用 Dataflow 2.1 Java Beam API 创建了管道,初始化大约需要 3-4 分钟,终止也需要大约 1-2 分钟每次运行。但是,实际转换 (ParDo) 只需不到一分钟。此外,我尝试按照不同的方法运行作业,
- 在本地机器上运行作业
- 在 GCP 上远程运行作业
- 通过 Dataflow 模板运行作业
但看起来,上述所有方法都或多或少地在初始化和终止方面消耗了相同的时间。所以这是 POC 的瓶颈,因为我们打算每天运行数百个作业。
我正在寻找一种方法来共享所有作业的初始化/终止时间,以便它可以是一次性活动或任何其他减少时间的方法。
提前致谢!
【问题讨论】:
标签: google-cloud-platform etl apache-beam dataflow