Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

目录

与正则化的关系

固定sigma，改变alpha

在teacher中加噪声 VS 在student中加噪声

其他实验不重要，略

方法

加入扰动

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

如公式2，在输出层的logits上加入扰动

对一个teacher的扰动不仅可以模拟多个teacher，而且会在loss中加入噪音，产生正则化的效果

与正则化的关系

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

如上式子所示，加入扰动的损失函数，相当于在原来的损失函数的基础上加入了正则化

方法流程

通过概率alpha，在mini-batch中选择一部分样本做扰动

通过式3计算损失函数

更新参数

对比实验

固定sigma，改变alpha

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

固定sigma为0.6，调整alpha

当不加噪声的student网络与teacher网络的gap比较大的时候，需要较大的扰动来产生好的效果

在teacher中加噪声 VS 在student中加噪声

Deep Model Compression: Distilling Knowledge from Noisy Teachers论文初读

在teacher中加入噪声的效果要好于在student中加入噪声

与现实生活中，从多个老师的身上学知识相符

其他实验不重要，略

相关文章：

2021-09-29
2021-12-08
2021-10-20
2022-12-23
2021-08-26
2022-01-01
2021-10-07
2021-04-18

猜你喜欢

2021-12-12
2021-07-25
2021-07-18
2021-04-05
2021-05-01
2021-04-20
2021-07-27

相关资源

下载 2023-01-05
下载 2022-12-29
下载 2022-12-07
下载 2022-12-12

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode