什么是机器学习中的过拟合和噪声？答案

【问题标题】：What are overfitting and noise in machine learning?什么是机器学习中的过拟合和噪声？
【发布时间】：2017-12-17 03:31:30
【问题描述】：

谁能解释 ML 中的过度拟合和噪声是什么？这会发生在参数分类器中吗？如何知道模型是否过度拟合数据？

【问题讨论】：

有时我想知道你们是如何在谷歌之前找到stackoverflow的。过度拟合是 ML 中非常基本的概念，简单的 Google 搜索会带来过多的结果。话虽如此，请查看答案。
SO 用于编程问答，要了解更多关于 ML 的信息，请参阅 course，这是一个很好的介绍。

标签： machine-learning classification noise

【解决方案1】：

过度拟合是指具有预测能力的模型过度拟合训练数据的情况。当引入新的测试数据时，这样的模型将产生非常模糊的结果。在这里，训练误差将非常低，因为模型已经调整并调整了自身以适应训练数据处于非常适应的位置。将自身变成低训练误差现象的情况称为低偏差。同样，当引入测试数据时，由于上述条件，测试数据中的错误度量会非常高。这种模型称为高方差模型。

相反，欠拟合是您的模型在训练数据本身中的拟合非常差的情况，这使其本身被称为高偏差。不能期望这样的模型在测试数据中也能提供良好的准确性。该模型在拟合测试数据时误差较大，也可以称为高方差模型。

通常我们期望一个好的模型总是低偏差/低方差模型。

有很多方法可以减少过度拟合，但其中很多都是特定于模型的特性的——

· 弹性网法（回归）

· 套索方法（回归）

· 岭方法（回归）

· RELU 激活函数（神经网络）

· 减少隐藏层的数量（神经网络）

· 剪枝（决策树回归和分类）等

没有明确的方法来减少欠拟合，但理论上，如果您非常仔细地选择过程特征，则可以移除欠拟合，因为模型总是会尝试使其自身变得过拟合而不是欠拟合。

如果数据太模糊，如果没有做适当的EDA，也会导致欠拟合。因此，始终建议在任何机器学习过程之前进行适当的 eda。

是的，参数分类器也会出现这种情况。

你可以通过一些评估指标来检测过拟合-

如果是回归，则 R Squared、Adj R Squared、RMSE、MAE 等指标会过高。
如果是分类，那么准确度、精度等指标会太高。

【讨论】：

【解决方案2】：

在 ML 中，过拟合意味着模型在训练数据上表现良好，但对新数据的泛化效果不佳。当模型相对于训练数据的数量和噪声而言过于复杂时，就会发生这种情况。那么，你怎么知道你过拟合了你的数据呢？建立模型后，根据训练集对其进行测试，并获得出色的结果。但是，当您针对测试集或现实生活进行测试时，预测的准确性会非常低。因此，是时候采取纠正措施了。可以的，

通过减少训练数据中的属性数量来简化模型
收集更多训练数据
减少训练数据中的噪音。

是的，任何参数模型都可能发生过拟合。

【讨论】：

过拟合可能发生在任何模型中，无论它是否是参数化的。