【发布时间】:2018-04-22 06:14:26
【问题描述】:
我有以下情况:我想将 Anaconda3 与 Zeppelin 和 Spark 一起使用。
我已经安装了以下组件:
- HDP 2.5
- Spark 2.0.0.x(HDP 2.5 自带的版本)
- 齐柏林飞艇 0.7.3
- Anaconda3 与 Python 3.5.4(Spark 2.0.0 和 Python 3.6 中的 PySpark 不是朋友)
- Python 2.7 附带 HDP 2.5,在 /usr/bin 中可用,此路径已添加到 $PATH
基本上,我将 Python 解释器配置为指向我的 anaconda 版本,在我的例子中是 /opt/anaconda3/bin/python,这是有效的。我还编辑了 zeppelin.sh 脚本:
export PYTHONPATH="${SPARK_HOME}/python:${SPARK_HOME}/python/lib/py4j-0.8.2.1-src.zip"
export SPARK_YARN_USER_ENV="PYTHONPATH=${PYTHONPATH}"
export PYSPARK_DRIVER_PYTHON="/var/opt/teradata/anaconda3/envs/py35/bin/ipython"
export PYSPARK_PYTHON="/var/opt/teradata/anaconda3/envs/py35/bin/python"
export PYLIB="/var/opt/teradata/anaconda3/envs/py35/lib"
到这里一切正常。
当我尝试 %python.conda 和 %python.sql 解释器时,它们失败了,因为找不到 conda 命令,pandas 也没有。 我将库位置添加到 $PATH 环境变量中,Zeppelin 能够找到这些命令,但副作用是,整个环境的默认 Python 版本变为 3.5 而不是 2.7,我开始遇到另一个像这样的错误:
apache.zeppelin.interpreter.InterpreterException: File "/usr/bin/hdp-select", line 205
print "ERROR: Invalid package - " + name
^
SyntaxError: Missing parentheses in call to 'print'
ls: cannot access /usr/hdp//hadoop/lib: No such file or directory
Exception in thread "main" java.lang.IllegalStateException: hdp.version is not set while running Spark under HDP, please set through HDP_VERSION in spark-env.sh or add a java-opts file in conf with -Dhdp.version=xxx
当我切换回来并从 $PATH 中删除 Python3 库时,它再次工作。
是否有任何最佳方式来配置我的环境以使一切正常运行并使其易于管理和维护?
我正在考虑在 /var/lib 中为需要找到的文件创建符号链接,但我不知道需要多少个,我不想为除 python3 之外的所有人创建链接。
任何评论都将受到高度赞赏。
亲切的问候,保罗
【问题讨论】:
标签: python apache-spark pyspark apache-zeppelin