用MMDetection训练过程中,全连接层(Fully Connected Layers,FC)出现nan错误,但是全连接层只是线性组合,而且数值也不大,也没有计算损失函数,怎么可能出现nan错误?

经过研究发现,原来是显存不足造成的,由于显存不足,有些tensor没有了,就造成了nan错误,进行了如下设置:

samples_per_gpu=1,
workers_per_gpu=1,

把1个GPU训练2个samples,改成了1个GPU训练1个sample,这个错误就消失了.

 

相关文章:

  • 2022-02-16
  • 2022-12-23
  • 2021-06-01
  • 2021-09-15
  • 2022-12-23
  • 2021-12-05
  • 2022-03-04
猜你喜欢
  • 2021-07-12
  • 2021-11-25
  • 2021-04-24
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案