在没有交叉验证的整个训练集上评估模型答案

【问题标题】：Evaluating models on the entire training set with no cross-validation在没有交叉验证的整个训练集上评估模型
【发布时间】：2015-02-28 22:54:36
【问题描述】：

我们有一个包含 10,000 个手动标记实例的数据集，以及一个针对所有这些数据进行训练的分类器。然后对所有这些数据评估分类器，以获得 95% 的成功率。

这种方法到底有什么问题？只是统计数据 95% 在此设置中信息量不是很大吗？这个 95% 的数字还有价值吗？虽然我知道从理论上讲这不是一个好主意，但我在这方面没有足够的经验来自己确定。另请注意，我既没有构建也没有评估有问题的分类器。

抛开常识不谈，谁能给我一个非常可靠、权威的参考，说这个设置有点错误？

例如，this page 确实说

使用用于训练的数据评估模型性能在数据挖掘中是不可接受的，因为它很容易生成过度乐观和过度拟合的模型。

但是，这几乎不是权威参考。事实上，这句话显然是错误的，因为评估与生成过拟合模型无关。它可能会产生过度乐观的数据科学家，他们会选择错误的模型，但特定的评估策略与过度拟合模型本身没有任何关系。

【问题讨论】：

你不认为这个问题是针对 CrossValidated 的吗？ stats.stackexchange.com
在训练集上有95%success rate 的事实不会让您在将模型用于真实数据时获得有关模型质量的信息。想象一下，您没有矛盾的实例（两个等效的实例，具有不同的标签）。然后，您可以编写一个模型，该模型只记住每个实例的标签，您将获得 100% 正确的预测。你会同意这个模型可能会在真实数据上表现得非常糟糕。
在 CrossValidated 上提问：stats.stackexchange.com/questions/130985/…
@cel，我也这么认为，但除了说“互联网上的许多人似乎都这么认为”之外，我找不到可靠的方法来证明这种观点。
我在 CrossValidated 上问过：stats.stackexchange.com/questions/130985/… 随意关闭。

标签： machine-learning cross-validation

【解决方案1】：

问题是overfitting 的可能性。这并不意味着您为整个数据集报告的准确度没有任何价值，因为它可以被认为是对分类器在新数据上的性能上限的估计。

说谁构成“非常可靠、权威的参考”是主观的；然而，Tom Mitchell (ISBN 978-0070428072) 的 Machine Learning 是一本广为阅读且经常被引用的文本，它讨论了一般的过度拟合问题，特别是关于决策树和人工神经网络的问题。除了讨论过拟合外，本文还讨论了训练和验证集方法的各种方法（例如，交叉验证）。

【讨论】：

问题是找参考。