【问题标题】:Why cannot I import 'pandas_udf' in Jupiter notebook?为什么我不能在 Jupyter 笔记本中导入“pandas_udf”?
【发布时间】:2018-09-01 01:22:26
【问题描述】:
我在 Jupyter 笔记本中运行以下代码,但得到 ImportError。请注意,“udf”可以在 Jupyter 中导入。
from pyspark.sql.functions import pandas_udf
ImportError Traceback(最近调用
最后)在()
----> 1 from pyspark.sql.functions import pandas_udf
ImportError: 无法导入名称“pandas_udf”
有人知道怎么解决吗?非常感谢!
【问题讨论】:
标签:
pyspark
jupyter-notebook
【解决方案1】:
看起来你是自己启动 jupyter notebook,而不是用 jupyter notebook 启动 pyspark,它是以下命令:
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
如果您的 jupyter notebook 服务器进程正在另一台机器上运行,您可能希望使用此命令使其可用于您服务器的所有 IP 地址。
(注意:如果您的服务器位于公共或不受信任的网络上,这可能是一个潜在的安全问题)
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=0.0.0.0 " pyspark
如果你这样启动 jupyter notebook 后问题仍然存在,我会修改我的答案。