【发布时间】:2020-05-05 16:22:43
【问题描述】:
我正在尝试使用 pytorch 和 tensor2tensor 训练 seq2seq 模型(变压器)。 使用 tensor2tensor 时,batch size 可以是 1024,而 pytorch 模型显示 CUDA out of memory error with 8 batch size。
在 tensor2tensor 中是否使用了任何技术来充分利用内存。
如果有人知道,请告诉我。
提前致谢。
【问题讨论】:
-
如果没有更多上下文就无法判断,它们是模型的相同实现吗?显示一些代码示例。你的 gpu 是否正确配置了 pytorch?
标签: tensorflow pytorch tensor2tensor