【发布时间】:2017-03-17 14:52:09
【问题描述】:
我有一个不平衡的训练数据,我在 weka 中使用逻辑回归进行分类。
有好坏两个等级。好的有 75000 个实例,坏的 3000.我的测试数据有10000个好的数据。
当我训练它时,它更倾向于好的数据,即它几乎将所有坏实例分类为好。我该怎么办 ? 我尝试在训练数据中使用 10000 个好的实例而不是 75000 个,但问题仍然相同。
【问题讨论】:
-
在没有任何信息的情况下很难分辨。您的数据集中还有匿名唯一标识符吗?如果是这样,请删除该属性。