如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Dataproc PySpark 作业答案

【问题标题】：How to schedule Dataproc PySpark jobs on GCP using Data Fusion/Cloud Composer如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Dataproc PySpark 作业
【发布时间】：2021-08-16 10:50:51
【问题描述】：

各位开发者您好，

我最近开始学习 GCP，我正在研究一个 POC，它要求我创建一个能够调度用 PySpark 编写的 Dataproc 作业的管道。目前，我在我的 Dataproc 集群上创建了一个 Jupiter 笔记本，它从 GCS 读取数据并将其写入 BigQuery，它在 Jupyter 上运行良好，但我想在管道中使用该笔记本。

就像在 Azure 上一样，我们可以使用 Azure 数据工厂来安排管道运行，请帮助我找出哪个 GCP 工具有助于实现类似的结果。

我的目标是安排多个 Dataproc 作业的运行。

【问题讨论】：

检查云调度程序 - cloud.google.com/scheduler

标签： google-cloud-platform pyspark google-cloud-dataproc google-cloud-composer google-cloud-data-fusion

【解决方案1】：

是的，您可以通过创建 Dataproc 工作流并使用 Cloud Composer 对其进行调度来做到这一点，请参阅doc 了解更多详细信息。

使用 Data Fusion，您将无法安排用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求，您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery。

【讨论】：

嗨@大港！可以为此目的使用数据融合吗？
嗨@SnehilSingh，通过使用数据融合，您将无法安排用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求，您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery。