【发布时间】:2014-09-05 20:26:42
【问题描述】:
我的训练数据分为两类,假设是和否。数据代表三个任务,简单、中等和困难。一个人执行这些任务并因此被分类为两个类别之一。每个任务被独立分类,然后将结果组合起来。我正在使用 3 个独立训练的 SVM 分类器,然后对最终结果进行投票。
我希望提供与每个分类相关的置信度或概率度量。 LIBSVM 可以提供概率估计以及每个任务的分类(简单、中等和困难,比如Pe、Pm 和Pd),但我不确定如何最好地将这些组合成最终的总体估计人的分类(我们称之为Pp)。
到目前为止,我的尝试都是简单的平均线:
Pp = (Pe + Pm + Pd) / 3
逆方差加权平均值(因为每个任务重复几次并且可以计算样本方差(VARe、VARm 和 VARd) - 在这种情况下,Pe 将是所有简单的示例):
Pp = (Pe/VARe + Pm/VARm + Pd/VARd) / (( 1/VARe ) + ( 1/VARm ) + ( 1/VARd ))
或乘法(假设这些事件是独立的,我不确定,因为底层任务是相关的):
Pp = Pe * Pm * Pd
乘法将提供一个非常低的数字,因此当投票结果非常明确时,如何将其解释为总体概率尚不清楚。
这三个选项中的任何一个是最好的还是我忽略了其他一些方法/细节?
【问题讨论】:
-
为什么不将所有三个任务的特征添加到单个 2 类分类器中?为什么要尝试进行中间预测?
-
@BenAllison 因为我们发现这个带有投票的中间步骤提供了更好的结果,更准确。此外,这似乎更可靠,与缺失数据有关。
标签: svm probability libsvm