【发布时间】:2015-03-12 01:13:09
【问题描述】:
我正在尝试使用 Encog 内部的 SVM 训练二进制正/负分类器。在这种特定情况下,数据集高度不平衡,负例与正例的比例大约为 30:1。
在模型的训练中,我故意对负例进行欠采样,以大致平衡给予模型的正例/负例,这种方法对我解决其他问题很有效。然而,在这种情况下,最终模型的误报率高得令人无法接受,在不平衡的测试集上进行测试时,误报的数量超过了真阳性的数量。
关于如何训练以降低误报率有什么建议吗?使用不平衡数据(或使用更接近观察到的平衡)进行训练会减少总体正面预测的数量,但似乎不会增加真阳性与假阳性的比率。
【问题讨论】:
-
这已在另一篇文章中得到解答。 stackoverflow.com/questions/18078084/…