【问题标题】:Submit a PySpark job to a cluster with Spark --jars option使用 Spark --jars 选项将 PySpark 作业提交到集群
【发布时间】:2015-09-28 09:26:29
【问题描述】:

我希望能够在提交 PySpark 作业时指定 --jars PySpark 提交选项。但是,不支持此选项。有其他选择吗?

【问题讨论】:

    标签: google-cloud-dataproc


    【解决方案1】:

    感谢您提出此问题,您似乎发现了一个错误,我们尚未连接必要的标志;其目的确实是在控制台 GUI 和gcloud beta dataproc jobs submit pyspark 中提供--jars 选项,我们希望能够在几周内在下一个小版本中部署修复。

    与此同时,您可以尝试简单地将任何 jarfile 依赖项转储到您的主节点和/或您的工作节点上的/usr/lib/hadoop/lib/,可能使用initialization actions 在集群部署时自动下载 jarfile,然后它将自动在您的 Spark(和 Hadoop)作业的类路径中可用。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-12-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-08-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多