【问题标题】:How to schedule Dataproc PySpark jobs on GCP using Data Fusion/Cloud Composer如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Dataproc PySpark 作业
【发布时间】:2021-08-16 10:50:51
【问题描述】:

各位开发者您好,

我最近开始学习 GCP,我正在研究一个 POC,它要求我创建一个能够调度用 PySpark 编写的 Dataproc 作业的管道。 目前,我在我的 Dataproc 集群上创建了一个 Jupiter 笔记本,它从 GCS 读取数据并将其写入 BigQuery,它在 Jupyter 上运行良好,但我想在管道中使用该笔记本。

就像在 Azure 上一样,我们可以使用 Azure 数据工厂来安排管道运行,请帮助我找出哪个 GCP 工具有助于实现类似的结果。

我的目标是安排多个 Dataproc 作业的运行。

【问题讨论】:

标签: google-cloud-platform pyspark google-cloud-dataproc google-cloud-composer google-cloud-data-fusion


【解决方案1】:

是的,您可以通过创建 Dataproc 工作流并使用 Cloud Composer 对其进行调度来做到这一点,请参阅doc 了解更多详细信息。

使用 Data Fusion,您将无法安排用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求,您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery。

【讨论】:

  • 嗨@大港!可以为此目的使用数据融合吗?
  • 嗨@SnehilSingh,通过使用数据融合,您将无法安排用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求,您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery。
猜你喜欢
  • 2020-03-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-12-07
相关资源
最近更新 更多