【问题标题】:How to install python packages in a Google Dataproc cluster如何在 Google Dataproc 集群中安装 python 包
【发布时间】:2018-10-21 03:18:43
【问题描述】:

Google Dataproc 集群创建并运行后,是否可以在集群中安装 python 包?

我尝试在主命令行中使用“pip install xxxxxxx”,但它似乎不起作用。

Google 的 Dataproc 文档没有提到这种情况。

【问题讨论】:

    标签: python google-cloud-platform google-compute-engine google-cloud-dataproc


    【解决方案1】:

    这在集群创建后一般是不可能的。我建议使用初始化操作来执行此操作。

    如您所见,pip 默认也不可用。因此,您需要运行easy_install pip,然后运行pip install 命令。

    最后,如果您打算在任何自动化中使用此集群,并且/或者您想要密封性,我建议您创建一个 wheel 并将其存储在 GCS 中并在 init 操作中下载。然后你会安装你的轮子。 Wheels 的好处是比直接从 pip 安装许多包更快。

    2019 年更新

    请参阅本教程,了解如何在 Dataproc 上配置 Python 环境: https://cloud.google.com/dataproc/docs/tutorials/python-configuration

    【讨论】:

    • 非常感谢,在使用 Jupyter Notebook 时,我能够在笔记本中使用 !pip install package 安装软件包。
    • 关于设置生产 pyspark 作业的好文章,如果这是您的追求,包括使用 Makefile 捆绑模块和在运行作业时部署:developerzen.com/…
    猜你喜欢
    • 2020-05-14
    • 1970-01-01
    • 2015-12-21
    • 2022-06-30
    • 1970-01-01
    • 2017-02-07
    • 2020-10-10
    • 2016-02-13
    • 2018-11-11
    相关资源
    最近更新 更多