【问题标题】:GPUs attached to google cloud instance no longer findable无法再找到附加到谷歌云实例的 GPU
【发布时间】:2019-11-29 19:28:40
【问题描述】:

过去几个月我一直在使用谷歌云平台,没有任何问题。 但是,我遇到了一个相当混乱的问题。我连接了一个 gpu,我们将其用于我们的深度学习模型。由于某种原因,此 GPU 不再显示在实例上。

当我跑步时

from tensorflow.python.client import device_lib
device_lib.list_local_devices()

[name: "/device:CPU:0"
 device_type: "CPU"
 memory_limit: 268435456
 locality {
 }
 incarnation: 963983047914027708, name: "/device:XLA_CPU:0"
 device_type: "XLA_CPU"
 memory_limit: 17179869184
 locality {
 }
 incarnation: 11201145405798739252
 physical_device_desc: "device: XLA_CPU device"]

我得到的输出表明没有可用的 GPU。当我尝试训练模型时,很明显它没有使用 GPU,因为训练速度显着降低。

我最近所做的唯一更改是安装 miniconda 并为不同的项目创建新的 conda env;是否有某种方式可能会干扰我当前代码识别 GPU 的能力?

在创建 conda env 期间,我遇到了当前 cuda 驱动程序和 cuda 版本的一些问题,但所有这些都发生在专用的 conda env 中,所以我不明白我怎么会搞砸一些东西这将阻止对 GPU 的识别。

提前致谢, 诺亚

【问题讨论】:

    标签: python tensorflow google-compute-engine


    【解决方案1】:

    使用 GPU 时,您需要考虑到有一些 restrictions,因此我建议您通读它们并尝试确定是否有任何限制影响了您的特定情况。据我所知,安装新库不会对无法识别 GPU 的代码产生任何影响。但是,如果您想恢复它们,可以参考此documentation link

    【讨论】:

      【解决方案2】:

      原来问题在于我们使用的 docker 文件中已更新了默认版本的 tensorflow。新版本是 CPU 版本,默认情况下不会寻找 GPU

      【讨论】:

        猜你喜欢
        • 2018-12-02
        • 1970-01-01
        • 2020-04-02
        • 1970-01-01
        • 1970-01-01
        • 2017-03-13
        • 1970-01-01
        • 1970-01-01
        • 2020-08-03
        相关资源
        最近更新 更多