【发布时间】:2020-07-11 01:06:33
【问题描述】:
我们正在尝试使用 tensorflow 训练我们的对象识别模型。由于图像太多(100GB),我猜我们当前的 GPU 服务器(1*2080Ti)无法工作。我们可能需要购买更强大的,但我不知道如何估计我们需要多少 GPU 内存。有什么方法可以估计需求吗?谢谢!
【问题讨论】:
标签: tensorflow deep-learning gpu nvidia
我们正在尝试使用 tensorflow 训练我们的对象识别模型。由于图像太多(100GB),我猜我们当前的 GPU 服务器(1*2080Ti)无法工作。我们可能需要购买更强大的,但我不知道如何估计我们需要多少 GPU 内存。有什么方法可以估计需求吗?谢谢!
【问题讨论】:
标签: tensorflow deep-learning gpu nvidia
您的 2080Ti 可以很好地完成您的任务。 DL 任务的 GPU 内存取决于许多因素,例如网络中可训练参数的数量、您输入的图像大小、批量大小、浮点类型(FP16 或 FP32)和激活次数等。我想你对一次将所有图像加载到 GPU 内存感到困惑。我们不这样做,而是使用不同大小的小批量将所有图像和参数放入内存中。将任何类型的网络投放到您的 2080Ti 并调整批量大小,您的训练就会顺利进行。您可以使用 2080Ti,也可以再增加一两次训练速度。 This blogpost 提供了有关创建最佳 DL 环境的精彩见解。
【讨论】: