云数据融合预览环境答案

【问题标题】：Cloud Data Fusion Preview environment云数据融合预览环境
【发布时间】：2020-04-30 07:05:12
【问题描述】：

我们可以配置计算配置文件以在我创建的自定义集群上运行管道，但是对于预览，我无法指定计算配置文件。

我需要使用一些自定义转换，这需要我在 data-proc 集群上安装一些外部 jar 才能使代码正常工作。我想在使用“预览运行”部署代码之前对其进行测试

有没有我可以做到这一点。在预览运行时，我没有看到任何可以设置为选择计算配置文件的属性。

【问题讨论】：

关于测试您的数据融合管道，您可以将引用项目 ID 和服务帐户的插件字段设置为宏，以便全局定义它们并使管道可移植。然后，通过预览运行，您可以为字段分配值并测试您的管道。这会满足您的需求吗？
Alexandre：问题不是 GCP 项目，我可以参数化管道中的项目/路径/目标，并且能够在预览运行期间在运行时访问它们。但是，预览不会在我为环境创建的计算配置文件上运行（因为集群上没有运行 Spark 应用程序）。事实上，我不知道 Job 在哪台机器上运行（我对数据融合非常陌生，不了解所有功能）。我的问题是我们是否也可以控制这种行为并让作业在我专门配置的 data-proc 集群上运行
根据documentation，当您提交作业时，您必须选择集群。命令行为：gcloud dataproc jobs submit job-command \ --cluster cluster-name --region region \ other dataproc-flags \ -- job-args。这是你要求的吗？
这个问题更多与 GCP 的数据融合服务有关，我没有直接提交 Spark 作业 Data-proc 集群，我使用数据融合服务会在集群上内部触发作业。当我部署管道并运行时它很好，我可以在其中配置计算配置文件以供我的管道使用，但是当我在部署管道之前执行“预览运行”时，我无法选择计算配置文件
您是对的，在 Data Fusion 中检查预览运行时无法选择计算配置文件。此外，关于作业将运行的集群，根据文档 Data fusion 提供了一个临时 Dataproc 集群，该集群在作业完成后被删除，here。这些信息对您有帮助吗？

标签： google-cloud-data-fusion

【解决方案1】：

经过我们在聊天中的讨论和进一步调查，我确认在部署管道之前，无法在 中选择 Compute Profile >管道工作室。但是，您可以通过单击配置来获得一些可用选项，如下所示：

如果您点击配置，您可以更改：管道配置、引擎配置、资源和管道警报。此外，您还可以选择Preview模式，然后点击Configure来更改运行时参数和预览配置（将显示的记录数）。

如果您需要选择您的计算配置文件来测试您的代码，我建议您部署、选择正确的计算配置文件并运行它。如果您需要更改管道中的任何内容，您可以复制它，它会将您带回 管道工作室，您可以在其中进行编辑。您可以按以下方式实现：单击 Actions 按钮（位于 Data Fusion 管道控制台的右上角），然后单击 Duplicate 。

您也可以通过link 向 Google 提出功能请求。

【讨论】：