【问题标题】:Why cannot I import 'pandas_udf' in Jupiter notebook?为什么我不能在 Jupyter 笔记本中导入“pandas_udf”?
【发布时间】:2018-09-01 01:22:26
【问题描述】:

我在 Jupyter 笔记本中运行以下代码,但得到 ImportError。请注意,“udf”可以在 Jupyter 中导入。

from pyspark.sql.functions import pandas_udf

ImportError Traceback(最近调用 最后)在() ----> 1 from pyspark.sql.functions import pandas_udf

ImportError: 无法导入名称“pandas_udf”

有人知道怎么解决吗?非常感谢!

【问题讨论】:

  • 你的 spark 版本是什么?
  • 是pyspark 2.3.0。

标签: pyspark jupyter-notebook


【解决方案1】:

看起来你是自己启动 jupyter notebook,而不是用 jupyter notebook 启动 pyspark,它是以下命令:

PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

如果您的 jupyter notebook 服务器进程正在另一台机器上运行,您可能希望使用此命令使其可用于您服务器的所有 IP 地址。

(注意:如果您的服务器位于公共或不受信任的网络上,这可能是一个潜在的安全问题)

PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook --ip=0.0.0.0 " pyspark

如果你这样启动 jupyter notebook 后问题仍然存在,我会修改我的答案。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-11-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-20
    • 2017-12-04
    相关资源
    最近更新 更多