【问题标题】:Google Dataflow design谷歌数据流设计
【发布时间】:2022-01-16 13:47:45
【问题描述】:

我们需要您就以下场景的数据流设计提供指导。

要求: 我们需要构建一个数据流作业来读取数据流 MS SQL 数据库并写入 Bigquery。 我们需要数据流作业将“表名列表”(源表名和目标表名)作为输入来读取和写入数据。

问题: 在日常计划中,数据流是否可以将表列表(即 50 个表名)作为输入并将数据从源复制到目标,或者是否应该将其设计为 50 个独立的数据流作业。 数据流会自动调整工作人员的数量——而不关闭源 MS SQL 服务器吗?

关键信息: 来源:MS SQL 数据库 目标:大查询 桌数:50 时间表:每天早上8点 写处置:写截断(或写追加)

【问题讨论】:

    标签: google-cloud-platform google-cloud-dataflow


    【解决方案1】:

    您必须创建一个dataflow template 才能按计划触发它。在该模板上,您必须定义一个输入变量,您可以在其中放置表格列表。

    然后,在同一个数据流作业中,您可以有 50 个独立的管道,每个管道读取一个表并将数据下沉到 BigQuery 中。由于quotas(每个项目限制为 25 个),您无法并行运行 50 个数据流作业。此外,它的成本效益会更低。

    确实,Dataflow 能够在同一个工作线程上并行化不同的管道(在不同的线程中),并根据工作负载要求扩大和缩小集群规模。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-07-20
      • 1970-01-01
      • 2011-03-08
      • 2015-04-14
      • 1970-01-01
      相关资源
      最近更新 更多