【问题标题】:Set findspark.init() Permanently永久设置 findspark.init()
【发布时间】:2017-09-23 14:41:21
【问题描述】:

我在 ubuntu 上的这个路径 /home/mymachine/spark-2.1.0-bin-hadoop2.7 上安装了 Apache Spark,所以我必须转到位于该目录下的 python 目录才能使用 spark 或者我可以在名为 findspark 的库的帮助下在 python 目录之外使用它,但似乎我必须总是像这样初始化这个库:

import findspark
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7")

每次想用findspark,效果不是很好。有没有办法永久初始化这个库?

here 提到需要在 .bash_profile 上设置变量 SPARK_HOME,我做到了,但没有运气。

【问题讨论】:

  • 嗨,我在 OSX 上遇到了类似的问题。意思是,我将 SPARK_HOME 添加到我的 .bash_profile 中,但没有运气。我不得不source .bash_profile 解决。
  • 嗨@bob-haffner 解决source .bash_profile 是什么意思?
  • 您好硬件,当您将环境变量(例如 SPARK_HOME)添加到 .bash_profile 时,您需要关闭并重新打开您的 shell 或执行 source .bash_profile 以便您可以使用它。这有意义吗?
  • 我应该注意这就是我在 OSX 上所做的。我对ubuntu不太熟悉
  • 嗨@bob-haffner,是的,当然。在 Ubuntu 中应该可以正常工作,但这次仍然无法正常工作。

标签: python pyspark


【解决方案1】:

将以下变量添加到您的 .bashrc 文件中

export SPARK_HOME=/path/2/spark/folder
export PATH=$SPARK_HOME/bin:$PATH

然后source .bashrc
如果您希望使用 jupyter notebook 运行到 pyspark,请将这些变量添加到 .bashrc

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

再次source .bashrc
现在,如果你从 shell 运行 pyspark,它将启动 jupyter notebook 服务器,pyspark 将在 python 内核上可用。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-12-20
    • 2014-01-25
    • 1970-01-01
    • 2012-02-06
    • 2015-07-15
    • 1970-01-01
    • 2017-11-19
    相关资源
    最近更新 更多