机器学习训练和测试数据拆分方法答案

【问题标题】：Machine Learning Training & Test data split method机器学习训练和测试数据拆分方法
【发布时间】：2016-12-03 01:32:19
【问题描述】：

我正在运行一个随机森林分类模型，最初将数据分为训练 (80%) 和测试 (20%)。然而，预测有太多的误报，我认为这是因为训练数据中有太多的噪音，所以我决定用不同的方法拆分数据，这就是我的做法。

由于我认为高 False Positive 是由于训练数据中的噪声，我使训练数据具有相同数量的目标变量。例如，如果我有 10,000 行的数据并且目标变量是 8,000 (0) 和 2,000 (1)，我的训练数据总共是 4,000 行，包括 2,000 (0) 和 2,000 (1)，这样训练数据现在有更多信号。

当我尝试这种新的拆分方法时，它通过将 Recall Positive 从 14% 增加到 70% 来更好地预测。

如果我在这里做错了什么，我很想听听您的反馈。我担心我的训练数据是否有偏差。

【问题讨论】：

标签： machine-learning scikit-learn training-data confusion-matrix

【解决方案1】：

当训练集中每个类的数据点数量不相等时，基线（随机预测）会发生变化。

对于嘈杂的数据，我认为您的意思是第 1 类的训练点数比其他类多。这并不是真正的噪音。这实际上是偏见。

例如：您在训练集中有 10000 个数据点，第 1 类有 8000 个数据点，第 0 类有 2000 个。我可以一直预测第 0 类并且已经获得 80% 的准确率。这会导致偏差，0-1 分类的基线不会是 50%。

要消除这种偏差，您可以像以前一样有意地平衡训练集，也可以通过赋予与训练集中点数成反比的权重来更改误差函数。

【讨论】：

非常感谢您的及时回复。所以我实现的方法（让训练数据有 50% 的 0 类和 50% 的 1 类）是正确的使用方法吗？
是的！但这取决于您对误报或误报的重视程度。例如：让 1 类是患者患有癌症，0 类不是癌症。与误报相比，你会更厌恶误报。在这种情况下，您将对预测的不同类别赋予不同的重要性。但是如果你想给 0 和 1 赋予相同的权重，那么它是正确的。 PS：如果您认为正确/满意，请接受答案
癌症示例正是我想要减少假阴性的情况！那么我应该给 1 类比 0 类更多的权重，而不是让训练数据有 50% 的 1 类和 50% 的 0 类吗？
是的，在这种情况下，我希望给假阴性更多的错误权重，并保持训练数据无偏（50-50）。因为使其不偏不倚（不是 50-50）与赋予不同的权重相同。 “一个类的更多 % 大致相当于该类的更多权重”
我不确定我是否同意（80-20）平衡数据有偏差，如果我们同意偏差是“是这个估计器的预期值和被估计参数的真实值之间的差异。 " （维基）。如果分布良好，测试数据可能与训练数据具有相同的分布。并且估计器的真实值没有理由是（50-50），所以训练数据也没有。考虑癌症：如果你的训练集是地球上所有的人——除了一些是测试的——你不希望一半的测试数据有癌症，所以训练分布也没有

【解决方案2】：

其实你做的是对的，这个过程类似于“分层抽样”。在您的第一个模型中，准确性非常低，该模型在特征和正类目标之间没有足够的相关性（1）。此外，它的模型可能对负类有些过度拟合。这被称为“高偏差 - 高方差"的情况。

“分层抽样”不过是当您从大量人群中提取样本数据时，您要确保所有类别的比例大致相等，以使模型的训练假设更加准确和可靠。

在第二种情况下，模型能够将特征与目标之间的关系关联起来，并且可以很好地区分正负类特征。消除噪声是数据准备的一部分，显然应该在将数据放入模型之前完成。

【讨论】：