【发布时间】:2016-01-31 18:52:44
【问题描述】:
我正在研究基于 Spark ML 的逻辑回归分类器。 我想知道我是否应该为 true 和 false 训练等量的数据。
我的意思是 当我想把人分为男性或女性时, 用100个男性数据+100个女性数据训练一个模型可以吗?
网上的人可能40%是男性,60%是女性,但是这个百分比是根据过去预测的,所以可以改变(比如30%女性,70%男性)
在这种情况下。 我应该训练什么女性/男性百分比的数据? 这和过拟合有关吗?
如果我训练了一个40%female + 60%male的模型,对一个70%female+30%male组成的字段数据进行分类是没有用的?
Spark 分类样本数据有 43 错误,57 正确。 https://github.com/apache/spark/blob/master/data/mllib/sample_binary_classification_data.txt
逻辑回归中训练数据的真假比是什么意思?
我的英语真的不太好,但希望你能理解我。
【问题讨论】:
标签: machine-learning prediction logistic-regression apache-spark-mllib