永久设置 findspark.init()答案

【问题标题】：Set findspark.init() Permanently永久设置 findspark.init()
【发布时间】：2017-09-23 14:41:21
【问题描述】：

我在 ubuntu 上的这个路径 /home/mymachine/spark-2.1.0-bin-hadoop2.7 上安装了 Apache Spark，所以我必须转到位于该目录下的 python 目录才能使用 spark 或者我可以在名为 findspark 的库的帮助下在 python 目录之外使用它，但似乎我必须总是像这样初始化这个库：

import findspark
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7")

每次想用findspark，效果不是很好。有没有办法永久初始化这个库？

here 提到需要在 .bash_profile 上设置变量 SPARK_HOME，我做到了，但没有运气。

【问题讨论】：

嗨，我在 OSX 上遇到了类似的问题。意思是，我将 SPARK_HOME 添加到我的 .bash_profile 中，但没有运气。我不得不source .bash_profile 解决。
嗨@bob-haffner 解决source .bash_profile 是什么意思？
您好硬件，当您将环境变量（例如 SPARK_HOME）添加到 .bash_profile 时，您需要关闭并重新打开您的 shell 或执行 source .bash_profile 以便您可以使用它。这有意义吗？
我应该注意这就是我在 OSX 上所做的。我对ubuntu不太熟悉
嗨@bob-haffner，是的，当然。在 Ubuntu 中应该可以正常工作，但这次仍然无法正常工作。

标签： python pyspark

【解决方案1】：

将以下变量添加到您的 .bashrc 文件中

export SPARK_HOME=/path/2/spark/folder
export PATH=$SPARK_HOME/bin:$PATH

然后source .bashrc
如果您希望使用 jupyter notebook 运行到 pyspark，请将这些变量添加到 .bashrc

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

再次source .bashrc
现在，如果你从 shell 运行 pyspark，它将启动 jupyter notebook 服务器，pyspark 将在 python 内核上可用。

【讨论】：