【发布时间】:2019-11-29 19:28:40
【问题描述】:
过去几个月我一直在使用谷歌云平台,没有任何问题。 但是,我遇到了一个相当混乱的问题。我连接了一个 gpu,我们将其用于我们的深度学习模型。由于某种原因,此 GPU 不再显示在实例上。
当我跑步时
from tensorflow.python.client import device_lib
device_lib.list_local_devices()
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 963983047914027708, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 11201145405798739252
physical_device_desc: "device: XLA_CPU device"]
我得到的输出表明没有可用的 GPU。当我尝试训练模型时,很明显它没有使用 GPU,因为训练速度显着降低。
我最近所做的唯一更改是安装 miniconda 并为不同的项目创建新的 conda env;是否有某种方式可能会干扰我当前代码识别 GPU 的能力?
在创建 conda env 期间,我遇到了当前 cuda 驱动程序和 cuda 版本的一些问题,但所有这些都发生在专用的 conda env 中,所以我不明白我怎么会搞砸一些东西这将阻止对 GPU 的识别。
提前致谢, 诺亚
【问题讨论】:
标签: python tensorflow google-compute-engine