【问题标题】:Install pyspark on Google cloud Dataproc cause "could not find valid SPARK_HOME while searching['/tmp', '/usr/local/bin']"在 Google Cloud Dataproc 上安装 pyspark 导致“搜索时找不到有效的 SPARK_HOME ['/tmp', '/usr/local/bin']”
【发布时间】:2018-10-08 20:30:18
【问题描述】:

我使用 Google Cloud Dataproc 创建了一个集群。我可以很好地向集群提交工作,直到我这样做

pip3 安装 pyspark

在集群上。之后,每次我尝试提交作业时,都会收到错误消息:

搜索['/tmp'时找不到有效的SPARK_HOME, '/usr/local/bin']
/usr/local/bin/spark-submit:第 27 行:/bin/spark-class:没有这样的文件或目录

我注意到即使在安装 pyspark 之前,SPARK_HOME 也没有设置任何值。但是我可以很好地提交工作。我想知道为什么安装 pyspark 会导致这个问题以及如何解决它?

【问题讨论】:

  • 如果提交作业成功运行,那么为什么要安装 pyspark 呢?您的手动安装与配置的 pyspark 冲突
  • @RameshMaharjan 是的...我刚刚意识到,我尝试安装 pyspark,因为当我在那里运行 python shell 并且它没有 pyspark 模块。现在我正在重新创建我的集群,看看它是否会成功。
  • 祝你好运。 stackoverflow.com/questions/44248567/… 应该可以帮助你;)

标签: apache-spark pyspark pip google-cloud-platform google-cloud-dataproc


【解决方案1】:

Pyspark 已预安装在 Dataproc 上 - 您应该调用 pyspark 命令而不是 python。目前,尝试 pip install pyspark 或 py4j 会破坏 Dataproc 上的 pyspark。您还需要注意不要 pip 安装任何依赖于 pyspark/py4j 的软件包。我们知道这个问题:)

如果您只是想切换到 Python 3,目前最简单的方法是在创建集群时运行 miniconda 初始化操作:https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/blob/master/conda/。该初始化操作还允许您方便地指定要安装的额外 pip 或 conda 包。

我们也知道 pyspark 不在 python 解释器的 PYTHONPATH 上。现在,如果您想运行 pyspark 代码,请使用 pyspark 命令。请注意,pyspark 命令源自 /etc/spark/conf/spark-env.sh,如果您想在 python shell 中运行 import pyspark,则必须手动执行此操作。

附注:与其通过 SSH 进入集群并运行 pyspark,不如考虑从您的工作站运行 gcloud dataproc jobs submit pyspark (docs) 或使用 Jupyter notebook

【讨论】:

    【解决方案2】:

    brew 安装 apache-spark 实际上已经提供了一个工作 pyspark shell。没有必要额外 点安装 pyspark

    【讨论】:

      猜你喜欢
      • 2018-07-05
      • 1970-01-01
      • 1970-01-01
      • 2017-08-21
      • 1970-01-01
      • 2018-09-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多