【问题标题】:Installing pandas 0.20.3 on Google Cloud Dataflow takes a very long time在 Google Cloud Dataflow 上安装 pandas 0.20.3 需要很长时间
【发布时间】:2017-08-15 01:04:46
【问题描述】:

在 Google Cloud Dataflow 上使用 Apache Beam Python SDK 2.0.0 时,安装 Pandas 0.20.3 需要很长时间(大约 8 分钟)。安装主要挂在消息Running setup.py bdist_wheel for pandas: still running...上。然而,在我的机器上,安装相同版本的 pandas 甚至不需要 30 秒(即使在清除 pip 缓存之后)。安装 pandas 大约需要现在运行我的管道的成本的三分之一。关于为什么这需要这么多时间的任何想法?

【问题讨论】:

    标签: python pandas google-cloud-dataflow apache-beam


    【解决方案1】:

    Dataflow SDK 仅以源形式暂存依赖项,因为客户端架构不一定与用作 Dataflow 工作器的虚拟机相匹配。这将导致从源代码安装 pandas 并在 VM 上编译需要很长时间。

    可以通过使用--extra_package 标志并指向whl 文件来解决此问题。对于pandas,可以使用pandas的pypi页面中对应的whl文件(py27,x86_64)。

    【讨论】:

    • 我用'pandas-0.20.3-cp27-cp27m-manylinux1_x86_64.whl'试过这个,但不幸的是它失败了10:43:47.000 Failed to install packages: failed to install extra packages: failed to install extra package pandas-0.20.3-cp27-cp27m-manylinux1_x86_64.whl: exit status 1。知道可能出了什么问题吗?毕竟架构不同吗?
    • 没关系!我不得不使用 cp27mu 版本。现在可以了。谢谢!!!
    猜你喜欢
    • 2018-08-08
    • 2018-02-16
    • 1970-01-01
    • 1970-01-01
    • 2018-10-16
    • 2020-03-20
    • 2021-02-15
    • 1970-01-01
    • 2012-01-16
    相关资源
    最近更新 更多