【发布时间】:2021-10-06 11:37:16
【问题描述】:
我有一个图像数据集,由三个分割组成 - 训练分割、验证分割和测试分割,并且想要标准化数据集以使训练更容易。因此,我想从可用数据中找出 RGB 值的均值和标准差。
我的疑问是 - 我是否应该考虑所有拆分以进行标准化?
我个人的想法是只应使用训练拆分,因为它被假定为我们必须训练模型的唯一数据。因此,该模型提供了来自训练数据分布的输入,留下了可以通过对验证拆分进行评估来挑选的错误。如果我从为训练提供的数据之外的数据向网络提供分布,它会不会向网络提供比它应该学习的更多信息?
执行此操作的任何其他方式也会有所帮助。例如,对 RGB 使用标准值是否更好?
transforms.Normalize((0.485, 0.456, 0.406), (0.229, 0.224, 0.225))
【问题讨论】:
标签: deep-learning pytorch dataset conv-neural-network data-preprocessing