【问题标题】:How to schedule Dataproc PySpark jobs on GCP using Data Fusion/Cloud Composer如何使用 Data Fusion/Cloud Composer 在 GCP 上安排 Dataproc PySpark 作业
【发布时间】:2021-08-16 10:50:51
【问题描述】:
各位开发者您好,
我最近开始学习 GCP,我正在研究一个 POC,它要求我创建一个能够调度用 PySpark 编写的 Dataproc 作业的管道。
目前,我在我的 Dataproc 集群上创建了一个 Jupiter 笔记本,它从 GCS 读取数据并将其写入 BigQuery,它在 Jupyter 上运行良好,但我想在管道中使用该笔记本。
就像在 Azure 上一样,我们可以使用 Azure 数据工厂来安排管道运行,请帮助我找出哪个 GCP 工具有助于实现类似的结果。
我的目标是安排多个 Dataproc 作业的运行。
【问题讨论】:
标签:
google-cloud-platform
pyspark
google-cloud-dataproc
google-cloud-composer
google-cloud-data-fusion
【解决方案1】:
是的,您可以通过创建 Dataproc 工作流并使用 Cloud Composer 对其进行调度来做到这一点,请参阅doc 了解更多详细信息。
使用 Data Fusion,您将无法安排用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求,您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery。
【讨论】:
-
-
嗨@SnehilSingh,通过使用数据融合,您将无法安排用 PySpark 编写的 Dataproc 作业。 Data Fusion 是 ETL/ELT 数据管道的无代码部署。根据您的要求,您可以直接创建和安排管道以从 GCS 中提取数据并使用 Data Fusion 将其加载到 BigQuery。