【问题标题】:Packages availability on Anaconda upgradeAnaconda 升级包的可用性
【发布时间】:2018-10-18 19:07:43
【问题描述】:

我们在 Hadoop cloudera 集群上下载了旧版本的 Anaconda,并希望将其升级到最新版本。在旧版本中,默认情况下,我们没有找到数据科学用例所需的包 tensorflow、geopandas、noaa_sdk、thrift_sasl、gensim 和其他一些包。我们已经在集群中手动安装了它们。

我的问题是,如果我升级 Anaconda,手动安装的软件包是否可用?还是我必须重新安装它们?

【问题讨论】:

    标签: python apache-spark hadoop anaconda cloudera


    【解决方案1】:

    我假设您使用 Cloudera 包裹在 hadoop 节点上安装了 Anaconda?

    https://www.cloudera.com/downloads/partner/anaconda.html

    如果是,那么你是对的,你必须重新安装你在 hadoop 节点上安装的所有东西。

    Cloudera 将包裹视为“immutable”——它们的状态不应改变。因此,当您在包裹上安装某些东西或以任何方式更改它们时,预计您所做的更改可能会丢失。 (例如,包裹重新部署,因为它会再次解压包裹)同样适用于升级 - 新的 Anaconda 版本仅带有一个新的 tar 文件(这就是包裹的基本内容,带有一些元数据信息)。

    如果您对管理 Python 环境感兴趣 - 查看 conda 虚拟环境 - https://conda.io/docs/user-guide/overview.html

    conda-pack 专门作为 YARN 上 Spark 的示例 - https://conda.github.io/conda-pack/spark.html

    我们目前正在将所有 Spark 作业迁移到 conda 环境,而不是依赖 Anaconda 包裹。

    PS。我注意到您在此主题中使用了python-2.7 标签。请注意,免费的 Anaconda Cloudera 包裹(从 Anaconda 5 版本开始)不再提供 Python2。它将与Python3 一起出现。谨防!这种变化让我们措手不及。这也是迁移到conda 的另一个原因,因为我们现在可以通过项目轻松地在Python2Python3 之间切换。

    【讨论】:

    • Anaconda 是否为 CDH 包提供免费的 Python 3.x(如社区版)? Anaconda 5.2 包裹也免费吗?在我阅读的任何地方,文档都说它是企业版,而不是免费提供的 Python 2.7.x
    • 他们实际上最近切换到了 Python 3。例如,查看 Anaconda 5.3 或其最新的 2019.03 版本以及新的版本控制方案 yyyy.mm 也是基于 Python 3。所以我们开始自己建造两个地块。一个用于 Python 2,另一个用于 Python 3。
    猜你喜欢
    • 2016-03-14
    • 2016-02-14
    • 1970-01-01
    • 2021-04-08
    • 1970-01-01
    • 1970-01-01
    • 2015-08-29
    • 1970-01-01
    相关资源
    最近更新 更多