在线绘制思维导图:http://app.siweidaotu.com/
本书架构
一.基础准备,1-4讲
- 1机器学习为什么需要策略
- 2.如何使用此书来帮助你的团队
- 3.先修知识与符号说明
- 4.规模驱动机器学习发展
二.基础误差分析,13-19讲
- 开发集和测试集的定义
- 6.开发集和测试集应该服从同一分布
- 7.开发集和测试集应该有多大
- 8.使用单值评估指标进行优化
- 9.优化指标和满意度指标
- 10.通过开发集和度量指标加速迭代
- 11.何时修改开发集,测试集和指标
- 12.小结:建立开发集和测试集
三.基础误差分析,13-19讲
- 13.快速构建并迭代你的第一个系统
- 14.误差分析:根据开发集样本评估想法
- 15.在误差分析时并行评估多个想法
- 16.清洗误标注的开发集和测试集样本
- 17.将大型开发集拆分为两个子集,专注其一
- 18.Eyeball和Blackball开发集该设置多大
- 19.小结:基础误差分析
四.偏差和方差,20-27讲
- 20.偏差和方差:误差的两大来源
- 21.偏差和方差举例
- 22.与最优错误率比较
- 23.处理偏差和方差
- 24.偏差与方差间的权衡
- 25.减少可避免偏差的技术
- 26.训练集误差分析
- 27.减少方差的技术
五.学习曲线,28-32讲
- 28.诊断偏差与方差:学习曲线
- 29.绘制训练误差曲线
- 30.解读学习曲线:高偏差
- 31.解读学习曲线:其他情况
- 32绘制学习曲线
六.与人类水平相比,33-35讲
- 33.为何与人类表现水平进行对比
- 34.如何定义人类表现水平
- 35.超越人类表现水平
七.在不同分布上训练与测试:36-43讲
- 36.何时在不同的分布上训练与测试
- 37.如何决定是否使用你所有的数据
- 38.如何决定是否添加不一致的数据
- 39.给数据添加权重
- 40.从训练集泛化到开发集
- 41.辨别偏差、方差与数据不匹配误差
- 42.解决数据不匹配问题
- 43.人工合成数据
八.调试推理算法,44-46讲
- 44优化验证测试
- 45.优化验证测试的一般形式
- 46.强化学习举例
九.端到端深度学习,47-52讲
- 47.端到端学习的兴起
- 48.端到端学习的更多例子
- 49.端到端学习的优缺点
- 50.流水线组件的选择:数据可用性
- 51.流水线组件的选择:任务简单性
- 52.直接学习更为丰富的输出
十.根据组件进行误差分析,53-57讲
- 53.根据组件进行误差分析
- 54.误差归因至某个组件
- 55.误差归因的一般情况
- 56.组件误差分析与人类水平对比
- 57.发现有缺陷的机器学习流水线
注解笔记
24讲偏差和方差间的权衡
加大模型的规模(在神经网络中增加神经元/层,或增加输入特征),可以减少偏差,但是由于增加了模型复杂度容易产生过拟合,所以可能会增加方差。
加入正则化本质上是减小深度学习模型的复杂度,减小过拟合风险,所以能够减小方差,但是他会增加偏差。
复杂度越高偏差越低,但是过拟合的风险越大。
数据量很大时,如果增加神经网络的规模的同时加入正则化方法,既可以减少偏差又可以不增加方差。
增加训练数据,可以解决过拟合问题,即减少方差,而且不影响偏差,偏差只与模型复杂度有关。
25 减少可避免偏差的技术
这个需要牢记于心,总则就是增加模型复杂度,可以通过四种方式来增加模型复杂度:1.增加模型规模,增加更多层;2.增加输入特征数;3.修改模型架构;4.减少正则化项。