【问题标题】:how to submit pyspark job with dependency on google dataproc cluster如何提交依赖于 google dataproc 集群的 pyspark 作业
【发布时间】:2016-08-15 13:04:21
【问题描述】:

我正在使用 google dataproc 集群运行 spark 作业,脚本在 python 中。

当只有一个脚本(例如test.py)时,我可以使用以下命令提交作业:

gcloud dataproc 作业提交 pyspark --cluster analyze ./test.py

但是现在test.py从自己写的其他脚本导入模块,怎么在命令中指定依赖呢?

【问题讨论】:

    标签: pyspark google-cloud-dataproc


    【解决方案1】:

    您可以使用here 中提到的--py-files 选项。

    【讨论】:

      【解决方案2】:

      如果你有一个结构为

      - maindir - lib - lib.py
                - run - script.py
      

      您可以使用 --files 标志或 --py-files 标志包含其他文件

      gcloud dataproc jobs submit pyspark --cluster=clustername --region=regionname --files /lib/lib.py /run/script.py
      

      你可以在script.py中导入

      from lib import something
      

      但是,我不知道有一种方法可以避免手动添加文件列表的繁琐过程。更详细的解释请查看Submit a python project to dataproc job

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-12-30
        • 1970-01-01
        • 2016-01-26
        • 2020-10-07
        • 2019-06-12
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多