《动手学深度学习》----深度学习基础复习

交叉熵只关心对正确类别的预测概率，因为只要其值足够大，就可以确保分类结果正确，而平方损失则过于严格，例如y^(i)1=y(i)2=0比y^(i)1=0,y(i)2=0.4的损失要小很多，虽然两者都有同样正确的分类预测结果。
《动手学深度学习》----深度学习基础复习

正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。

权重衰减是在模型原损失函数基础上添加L2范数惩罚项，从而训练所需要最小化的函数。通常会使学到的权重参数的元素较接近0（λ较大时）.

损失函数变为：

迭代方式变为：

《动手学深度学习》----深度学习基础复习

丢弃法：对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为p，那么有p的概率hi会被清零，有1−p的概率hi会除以1−p做拉伸。丢弃概率是丢弃法的超参数。

正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）

反向传播指的是计算神经网络参数梯度的方法。总的来说，反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。