目录

方法

  加入扰动

  与正则化的关系

  方法流程

对比实验

  固定sigma,改变alpha

  在teacher中加噪声 VS 在student中加噪声

  其他实验不重要,略 


方法

  加入扰动

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

如公式2,在输出层的logits上加入扰动

对一个teacher的扰动不仅可以模拟多个teacher,而且会在loss中加入噪音,产生正则化的效果

  与正则化的关系

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

如上式子所示,加入扰动的损失函数,相当于在原来的损失函数的基础上加入了正则化

  方法流程

通过概率alpha,在mini-batch中选择一部分样本做扰动

通过式3计算损失函数

更新参数

对比实验

  固定sigma,改变alpha

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

固定sigma为0.6,调整alpha

当不加噪声的student网络与teacher网络的gap比较大的时候,需要较大的扰动来产生好的效果

  在teacher中加噪声 VS 在student中加噪声

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

在teacher中加入噪声的效果要好于在student中加入噪声

与现实生活中,从多个老师的身上学知识相符

  其他实验不重要,略 

相关文章:

  • 2021-09-29
  • 2021-12-08
  • 2021-10-20
  • 2022-12-23
  • 2021-08-26
  • 2022-01-01
  • 2021-10-07
  • 2021-04-18
猜你喜欢
  • 2021-12-12
  • 2021-07-25
  • 2021-07-18
  • 2021-04-05
  • 2021-05-01
  • 2021-04-20
  • 2021-07-27
相关资源
相似解决方案