逻辑回归训练数据集真假比答案

【问题标题】：Logistic regression training data set true/false ratio逻辑回归训练数据集真假比
【发布时间】：2016-01-31 18:52:44
【问题描述】：

我正在研究基于 Spark ML 的逻辑回归分类器。我想知道我是否应该为 true 和 false 训练等量的数据。

我的意思是当我想把人分为男性或女性时，用100个男性数据+100个女性数据训练一个模型可以吗？

网上的人可能40%是男性，60%是女性，但是这个百分比是根据过去预测的，所以可以改变（比如30%女性，70%男性）

在这种情况下。我应该训练什么女性/男性百分比的数据？这和过拟合有关吗？

如果我训练了一个40%female + 60%male的模型，对一个70%female+30%male组成的字段数据进行分类是没有用的？

逻辑回归中训练数据的真假比是什么意思？

我的英语真的不太好，但希望你能理解我。

【问题讨论】：

【解决方案1】：

只要合理，使用什么比例都可以。

60:40、30:70、50:50，没关系。只要确保它不是太不平衡，比如 99:1。

如果整个数据集是 70:30 的女性：男性，并且您只想使用该数据集的一个子集，那么追求 60:40 的女性：男性比例不会杀死您。

考虑以下示例：您的测试数据包含 99% 的男性和 1% 的女性。

从技术上讲，您可以正确分类所有男性，所有女性错误，您的算法会显示 1% 的错误。看起来还不错吧？不，因为你的数据太不平衡了。

这种低误差不是过度拟合（高方差）的结果，而是数据集不平衡的结果。

这是一个极端的例子，但你明白了。

【讨论】：