【发布时间】:2020-04-30 07:05:12
【问题描述】:
我们可以配置计算配置文件以在我创建的自定义集群上运行管道,但是对于预览,我无法指定计算配置文件。
我需要使用一些自定义转换,这需要我在 data-proc 集群上安装一些外部 jar 才能使代码正常工作。我想在使用“预览运行”部署代码之前对其进行测试
有没有我可以做到这一点。在预览运行时,我没有看到任何可以设置为选择计算配置文件的属性。
【问题讨论】:
-
关于测试您的数据融合管道,您可以将引用项目 ID 和服务帐户的插件字段设置为宏,以便全局定义它们并使管道可移植。然后,通过预览运行,您可以为字段分配值并测试您的管道。这会满足您的需求吗?
-
Alexandre:问题不是 GCP 项目,我可以参数化管道中的项目/路径/目标,并且能够在预览运行期间在运行时访问它们。但是,预览不会在我为环境创建的计算配置文件上运行(因为集群上没有运行 Spark 应用程序)。事实上,我不知道 Job 在哪台机器上运行(我对数据融合非常陌生,不了解所有功能)。我的问题是我们是否也可以控制这种行为并让作业在我专门配置的 data-proc 集群上运行
-
根据documentation,当您提交作业时,您必须选择集群。命令行为:
gcloud dataproc jobs submit job-command \ --cluster cluster-name --region region \ other dataproc-flags \ -- job-args。这是你要求的吗? -
这个问题更多与 GCP 的数据融合服务有关,我没有直接提交 Spark 作业 Data-proc 集群,我使用数据融合服务会在集群上内部触发作业。当我部署管道并运行时它很好,我可以在其中配置计算配置文件以供我的管道使用,但是当我在部署管道之前执行“预览运行”时,我无法选择计算配置文件
-
您是对的,在 Data Fusion 中检查预览运行时无法选择计算配置文件。此外,关于作业将运行的集群,根据文档 Data fusion 提供了一个临时 Dataproc 集群,该集群在作业完成后被删除,here。这些信息对您有帮助吗?