如何提交依赖于 google dataproc 集群的 pyspark 作业答案

【问题标题】：how to submit pyspark job with dependency on google dataproc cluster如何提交依赖于 google dataproc 集群的 pyspark 作业
【发布时间】：2016-08-15 13:04:21
【问题描述】：

我正在使用 google dataproc 集群运行 spark 作业，脚本在 python 中。

当只有一个脚本（例如test.py）时，我可以使用以下命令提交作业：

gcloud dataproc 作业提交 pyspark --cluster analyze ./test.py

但是现在test.py从自己写的其他脚本导入模块，怎么在命令中指定依赖呢？

【问题讨论】：

标签： pyspark google-cloud-dataproc

【解决方案1】：

您可以使用here 中提到的--py-files 选项。

【讨论】：

【解决方案2】：

如果你有一个结构为

- maindir - lib - lib.py
          - run - script.py

您可以使用 --files 标志或 --py-files 标志包含其他文件

gcloud dataproc jobs submit pyspark --cluster=clustername --region=regionname --files /lib/lib.py /run/script.py

你可以在script.py中导入

from lib import something

但是，我不知道有一种方法可以避免手动添加文件列表的繁琐过程。更详细的解释请查看Submit a python project to dataproc job

【讨论】：