【问题标题】:Adding spark-r job to dataproc workflow template将 spark-r 作业添加到 dataproc 工作流模板
【发布时间】:2019-03-13 12:45:15
【问题描述】:

我尝试以两种不同的方式将spark-r 作业步骤添加到我的工作流模板中。

使用 gcloud 命令:

gcloud beta dataproc workflow-templates add-job spark-r gs://path/to/script.R \
    --step-id=<stepid> --workflow-template=<templateid>

或者通过导入 YAML 定义:

jobs:
- sparkRJob:
    mainRFileUri: gs://path/to/script.R
  stepId: <stepid>
placement:
  managedCluster:
    clusterName: cluster-sparkr
    config:
      gceClusterConfig:
        zoneUri: europe-west4-b
      masterConfig:
        machineTypeUri: n1-standard-4
      workerConfig:
        machineTypeUri: n1-standard-4
        numInstances: 4

但是两种方式都会导致以下错误:

INVALID_ARGUMENT:作业“”必须提供作业定义

这让我对我到底错过了什么感到有些困惑。

【问题讨论】:

    标签: google-cloud-platform workflow google-cloud-dataproc


    【解决方案1】:

    我已经测试了你的 YAML 定义,它对我有用:

    gcloud beta dataproc workflow-templates instantiate-from-file --file <definition.yaml>
    

    此外,使用 gcloud 命令成功创建了包含 Spark R 作业的工作流模板:

    gcloud beta dataproc workflow-templates create my-test-wf-01
    gcloud beta dataproc workflow-templates add-job spark-r gs://path/to/script.R \
        --step-id=my-test-step-id --workflow-template=my-test-wf-01
    

    上面第二条命令的输出:

    createTime: '2019-04-15T16:49:06.346Z'
    id: my-test-wf-01
    jobs:
    - sparkRJob:
        mainRFileUri: gs://path/to/script.R
      stepId: my-test-step-id
    

    【讨论】:

    • 如果我尝试创建此工作流,我仍然会收到相同的错误消息。
    • 我添加了对我有用的回答命令。您可以分享用于创建工作流模板的完整命令吗?
    • 您使用什么gcloud 版本?尝试更新到最新版本。
    • 在我的本地计算机上:Google Cloud SDK 241.0.0, beta 2019.02.22, bq 2.0.43, core 2019.04.02, gsutil 4.38 我也尝试过 GCP 上的 Active Cloud Shell,但也没有骰子。
    • 上一条评论没有更多可用的编辑 :) 我认为 Gcloud 应该是最新的。我昨天更新了。我不确定您的第二个命令的格式。那有效吗?反正你写的命令和我试过的基本一样。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-03-30
    • 2021-10-24
    • 2016-09-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多