目录
方法
加入扰动
如公式2,在输出层的logits上加入扰动
对一个teacher的扰动不仅可以模拟多个teacher,而且会在loss中加入噪音,产生正则化的效果
与正则化的关系
如上式子所示,加入扰动的损失函数,相当于在原来的损失函数的基础上加入了正则化
方法流程
通过概率alpha,在mini-batch中选择一部分样本做扰动
通过式3计算损失函数
更新参数
对比实验
固定sigma,改变alpha
固定sigma为0.6,调整alpha
当不加噪声的student网络与teacher网络的gap比较大的时候,需要较大的扰动来产生好的效果
在teacher中加噪声 VS 在student中加噪声
在teacher中加入噪声的效果要好于在student中加入噪声
与现实生活中,从多个老师的身上学知识相符