【问题标题】:How to spark-submit .py file stored in GCP bucket?如何提交存储在 GCP 存储桶中的 .py 文件?
【发布时间】:2019-04-29 21:36:50
【问题描述】:

我正在尝试运行此文件 .py 文件。我已经复制了 GCP 存储桶中的 dsgd_mf.py 文件。所需的输入数据文件也在我的存储桶中。如何火花提交并获得输出? (https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py)

我在 GCP 上运行 Jupyter 笔记本并安装了 gcloud SDK。除了创建集群和运行 Jupiter notebook 之外,我还没有更改任何其他内容。我看到了一些与 .jar 文件有关的选项,但我不知道并且有任何 .jar 文件要指定或链接。我是新手,我们将不胜感激。请访问链接以查看脚本文件。我需要帮助才能在 Google 云平台上运行它。

【问题讨论】:

    标签: python apache-spark google-cloud-platform pyspark spark-submit


    【解决方案1】:

    您是否在 Dataproc 上运行此程序?如果是这样,您应该可以使用以下内容提交 pyspark 作业:

    gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
    {GCS_PATH_TO_JOB} \
    --cluster {CLUSTER_NAME} \
    -- {SPACE_DELIMITED_JOB_ARGUMENTS}
    

    尽管如此,使用 pyspark jupyter 内核会阻止作业启动(即日志会说作业一遍又一遍地等待资源)。

    【讨论】:

      猜你喜欢
      • 2021-01-11
      • 1970-01-01
      • 2021-03-27
      • 2022-06-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-09-05
      • 2020-10-17
      相关资源
      最近更新 更多