【发布时间】:2015-02-28 22:54:36
【问题描述】:
我们有一个包含 10,000 个手动标记实例的数据集,以及一个针对所有这些数据进行训练的分类器。 然后对所有这些数据评估分类器,以获得 95% 的成功率。
这种方法到底有什么问题?只是统计数据 95% 在此设置中信息量不是很大吗?这个 95% 的数字还有价值吗?虽然我知道从理论上讲这不是一个好主意,但我在这方面没有足够的经验来自己确定。另请注意,我既没有构建也没有评估有问题的分类器。
抛开常识不谈,谁能给我一个非常可靠、权威的参考,说这个设置有点错误?
例如,this page 确实说
使用用于训练的数据评估模型性能在数据挖掘中是不可接受的,因为它很容易生成过度乐观和过度拟合的模型。
但是,这几乎不是权威参考。事实上,这句话显然是错误的,因为评估与生成过拟合模型无关。它可能会产生过度乐观的数据科学家,他们会选择错误的模型,但特定的评估策略与过度拟合模型本身没有任何关系。
【问题讨论】:
-
你不认为这个问题是针对 CrossValidated 的吗? stats.stackexchange.com
-
在训练集上有
95%success rate的事实不会让您在将模型用于真实数据时获得有关模型质量的信息。想象一下,您没有矛盾的实例(两个等效的实例,具有不同的标签)。然后,您可以编写一个模型,该模型只记住每个实例的标签,您将获得 100% 正确的预测。你会同意这个模型可能会在真实数据上表现得非常糟糕。 -
在 CrossValidated 上提问:stats.stackexchange.com/questions/130985/…
-
@cel,我也这么认为,但除了说“互联网上的许多人似乎都这么认为”之外,我找不到可靠的方法来证明这种观点。
-
我在 CrossValidated 上问过:stats.stackexchange.com/questions/130985/… 随意关闭。
标签: machine-learning cross-validation