【问题标题】:Logistic regression training data set true/false ratio逻辑回归训练数据集真假比
【发布时间】:2016-01-31 18:52:44
【问题描述】:

我正在研究基于 Spark ML 的逻辑回归分类器。 我想知道我是否应该为 true 和 false 训练等量的数据。

我的意思是 当我想把人分为男性或女性时, 用100个男性数据+100个女性数据训练一个模型可以吗?

网上的人可能40%是男性,60%是女性,但是这个百分比是根据过去预测的,所以可以改变(比如30%女性,70%男性)

在这种情况下。 我应该训练什么女性/男性百分比的数据? 这和过拟合有关吗?

如果我训练了一个40%female + 60%male的模型,对一个70%female+30%male组成的字段数据进行分类是没有用的?

Spark 分类样本数据有 43 错误,57 正确。 https://github.com/apache/spark/blob/master/data/mllib/sample_binary_classification_data.txt

逻辑回归中训练数据的真假比是什么意思?

我的英语真的不太好,但希望你能理解我。

【问题讨论】:

    标签: machine-learning prediction logistic-regression apache-spark-mllib


    【解决方案1】:

    只要合理,使用什么比例都可以。

    60:40、30:70、50:50,没关系。只要确保它不是太不平衡,比如 99:1。

    如果整个数据集是 70:30 的女性:男性,并且您只想使用该数据集的一个子集,那么追求 60:40 的女性:男性比例不会杀死您。

    考虑以下示例: 您的测试数据包含 99% 的男性和 1% 的女性。

    从技术上讲,您可以正确分类所有男性,所有女性错误,您的算法会显示 1% 的错误。看起来还不错吧?不,因为你的数据太不平衡了。

    这种低误差不是过度拟合(高方差)的结果,而是数据集不平衡的结果。

    这是一个极端的例子,但你明白了。

    【讨论】:

    • 不用担心 Jihun,很高兴能帮上忙 :)
    猜你喜欢
    • 2015-01-07
    • 2020-02-25
    • 2015-04-10
    • 2016-02-01
    • 2019-07-11
    • 2019-02-14
    • 2020-10-26
    • 1970-01-01
    • 2018-05-01
    相关资源
    最近更新 更多