【发布时间】:2018-10-08 20:30:18
【问题描述】:
我使用 Google Cloud Dataproc 创建了一个集群。我可以很好地向集群提交工作,直到我这样做
pip3 安装 pyspark
在集群上。之后,每次我尝试提交作业时,都会收到错误消息:
搜索['/tmp'时找不到有效的SPARK_HOME, '/usr/local/bin']
/usr/local/bin/spark-submit:第 27 行:/bin/spark-class:没有这样的文件或目录
我注意到即使在安装 pyspark 之前,SPARK_HOME 也没有设置任何值。但是我可以很好地提交工作。我想知道为什么安装 pyspark 会导致这个问题以及如何解决它?
【问题讨论】:
-
如果提交作业成功运行,那么为什么要安装 pyspark 呢?您的手动安装与配置的 pyspark 冲突
-
@RameshMaharjan 是的...我刚刚意识到,我尝试安装 pyspark,因为当我在那里运行 python shell 并且它没有 pyspark 模块。现在我正在重新创建我的集群,看看它是否会成功。
-
祝你好运。 stackoverflow.com/questions/44248567/… 应该可以帮助你;)
标签: apache-spark pyspark pip google-cloud-platform google-cloud-dataproc