【发布时间】:2015-09-28 09:26:29
【问题描述】:
我希望能够在提交 PySpark 作业时指定 --jars PySpark 提交选项。但是,不支持此选项。有其他选择吗?
【问题讨论】:
我希望能够在提交 PySpark 作业时指定 --jars PySpark 提交选项。但是,不支持此选项。有其他选择吗?
【问题讨论】:
感谢您提出此问题,您似乎发现了一个错误,我们尚未连接必要的标志;其目的确实是在控制台 GUI 和gcloud beta dataproc jobs submit pyspark 中提供--jars 选项,我们希望能够在几周内在下一个小版本中部署修复。
与此同时,您可以尝试简单地将任何 jarfile 依赖项转储到您的主节点和/或您的工作节点上的/usr/lib/hadoop/lib/,可能使用initialization actions 在集群部署时自动下载 jarfile,然后它将自动在您的 Spark(和 Hadoop)作业的类路径中可用。
【讨论】: