有监督学习的损失函数

以下均以二分类问题为例，即\(Y=\{1, -1\}\) , \(y = \mathop{sign}(f(x_i; \theta))\)

\[L_{0-1}(f, y) = I(fy \leq 0) \]

非凸、非光滑，难以优化

0-1损失的一个代理函数，是0-1损失相对紧的上界，称为合页损失函数

\[L_{hinge}(f, y) = \max\{0, 1-fy\} \]

在\(fy=1\)处不可导，因此不能用梯度下降优化，而是用次梯度下降

0-1损失的代理函数，凸上界

\[L_{logistic}(f, y) = \log_2 (1 + \exp (-fy)) \]

处处光滑，可用梯度下降。但对所有样本点都有惩罚，因此对异常值更敏感

0-1损失函数的代理函数，光滑凸上界

\[L_{cross \ entropy} (f, y) = -\log2(\frac{1+fy}{2})\quad f \in [-1, 1] \]

对于回归问题，有\(y = f(x_i;\theta)\)

\[L_{square}(f, y) = (f - y)^2 \]

光滑函数，能用梯度下降，但对异常点敏感

\[L_{absolute}(f, y) = |f - y| \]

相当于做中值回归，比平方损失函数鲁棒，但在\(f=y\)处无法求导数

综合考虑可导性和鲁棒性

\[L_{huber}(f, y) = \begin{aligned} \begin{cases} (f-y)^2 & |f-y| \leq \delta \\ 2\delta|f-y|-\delta^2 & |f-y|> \delta \end{cases} \end{aligned} \]

在\(|f-y|\)较小时为平方损失，在\(|f-y|\)较大时为线性损失，处处可导，且对异常点鲁棒