【问题标题】:Cloud Data Fusion Preview environment云数据融合预览环境
【发布时间】:2020-04-30 07:05:12
【问题描述】:

我们可以配置计算配置文件以在我创建的自定义集群上运行管道,但是对于预览,我无法指定计算配置文件。

我需要使用一些自定义转换,这需要我在 data-proc 集群上安装一些外部 jar 才能使代码正常工作。我想在使用“预览运行”部署代码之前对其进行测试

有没有我可以做到这一点。在预览运行时,我没有看到任何可以设置为选择计算配置文件的属性。

【问题讨论】:

  • 关于测试您的数据融合管道,您可以将引用项目 ID 和服务帐户的插件字段设置为宏,以便全局定义它们并使管道可移植。然后,通过预览运行,您可以为字段分配值并测试您的管道。这会满足您的需求吗?
  • Alexandre:问题不是 GCP 项目,我可以参数化管道中的项目/路径/目标,并且能够在预览运行期间在运行时访问它们。但是,预览不会在我为环境创建的计算配置文件上运行(因为集群上没有运行 Spark 应用程序)。事实上,我不知道 Job 在哪台机器上运行(我对数据融合非常陌生,不了解所有功能)。我的问题是我们是否也可以控制这种行为并让作业在我专门配置的 data-proc 集群上运行
  • 根据documentation,当您提交作业时,您必须选择集群。命令行为:gcloud dataproc jobs submit job-command \ --cluster cluster-name --region region \ other dataproc-flags \ -- job-args。这是你要求的吗?
  • 这个问题更多与 GCP 的数据融合服务有关,我没有直接提交 Spark 作业 Data-proc 集群,我使用数据融合服务会在集群上内部触发作业。当我部署管道并运行时它很好,我可以在其中配置计算配置文件以供我的管道使用,但是当我在部署管道之前执行“预览运行”时,我无法选择计算配置文件
  • 您是对的,在 Data Fusion 中检查预览运行时无法选择计算配置文件。此外,关于作业将运行的集群,根据文档 Data fusion 提供了一个临时 Dataproc 集群,该集群在作业完成后被删除,here。这些信息对您有帮助吗?

标签: google-cloud-data-fusion


【解决方案1】:

经过我们在聊天中的讨论和进一步调查,我确认在部署管道之前,无法在 中选择 Compute Profile >管道工作室。但是,您可以通过单击 配置 来获得一些可用选项,如下所示:

如果您点击配置,您可以更改:管道配置、引擎配置、资源管道警报。此外,您还可以选择Preview模式,然后点击Configure来更改运行时参数预览配置(将显示的记录数)。

如果您需要选择您的计算配置文件来测试您的代码,我建议您部署、选择正确的计算配置文件并运行它。如果您需要更改管道中的任何内容,您可以复制它,它会将您带回 管道工作室,您可以在其中进行编辑。您可以按以下方式实现:单击 Actions 按钮(位于 Data Fusion 管道控制台的右上角),然后单击 Duplicate

您也可以通过link 向 Google 提出功能请求。

【讨论】:

    猜你喜欢
    • 2020-05-07
    • 1970-01-01
    • 1970-01-01
    • 2022-11-05
    • 1970-01-01
    • 2019-10-04
    • 2020-10-14
    • 2023-01-31
    • 1970-01-01
    相关资源
    最近更新 更多