【问题标题】:Trying to install pandas for Pyspark running on Amazon EMR尝试为在 Amazon EMR 上运行的 Pyspark 安装 pandas
【发布时间】:2026-02-14 22:50:02
【问题描述】:

这个问题确实适用于任何 Python 包。我有一个在我的 Spark 作业之前运行的引导脚本,我假设我需要在该脚本中安装 pandas。我尝试了许多不同的方法,但似乎没有任何效果(pip install、easy_install、yum install 等)。在 Spark pandas 中导入失败时,所有作业都会失败。我正在运行 EMR v5.12.1 和 Python 3.4。

【问题讨论】:

    标签: pandas pyspark amazon-emr


    【解决方案1】:
    sudo python3 -m pip install pandas
    

    这是我们在bootstarp.sh 中写的安装pandas

    【讨论】: