【发布时间】:2020-01-16 16:02:54
【问题描述】:
我有一个包含 50 个数据点的小型数据集,分为两个类,每个类 25 个。我正在使用交叉验证进行监督分类。我已经使用整个数据集训练了一个模型,但我还想训练一个单独的模型,其中删除了 7 个数据点,全部来自一个类,看看它的比较情况。这将使我在消极类中留下 25 个,在积极类中留下 18 个。我想使用accuracy 作为我的评分指标,因为它在我的领域中使用最广泛,因此我可以将我的结果与其他人进行比较。
我想将这种平衡精度计算:http://mvpa.blogspot.com/2015/12/balanced-accuracy-what-and-why.html 用于我的简化数据集,因为它似乎与平衡集的精度最直接可比?但是 sci-kit 中的 balanced_accuracy 分数是不同的计算方法(每个类的召回平均值)。
我已经阅读了很多关于不同指标、不平衡数据集等的内容,但我遇到了难题。我不相信 sci-kit 中有一个指标可以执行我所追求的平衡精度计算?我需要使用混淆矩阵自己计算吗?我不知道我的编码技术是否足够好。这甚至是比较平衡和不平衡的两个数据集的最佳方法吗?我知道理想情况下,ROC 曲线应该用于平衡,而精确召回曲线用于不平衡,所以这并没有真正的帮助。
非常感谢任何帮助。
【问题讨论】:
-
您的问题究竟是什么?
-
这是一个关于评分指标、比较不平衡类别和计算平衡准确度的一般问题。我很抱歉没有更清楚。
标签: python machine-learning scikit-learn scoring