成本的 WEKA LibSVM 权重参数答案

【问题标题】：WEKA LibSVM weight parameter for cost成本的 WEKA LibSVM 权重参数
【发布时间】：2012-07-30 15:14:37
【问题描述】：

我正在使用 LibSVM 在高度不平衡的数据集上训练 SVM。输出的 10% 为真，而 90% 为假。我读到了重量参数：

  -wi weight: set the parameter C of class i to weight*C, for C-SVC (default 1)

每个类的参数集应该是什么？这个权重参数在直观上是什么意思，我们应该如何使用呢？

【问题讨论】：

【解决方案1】：

权重参数控制 SVM 优化的偏度。也就是说，权重较高的类将计数更多。如果一个类的权重是另一个类的 3 倍，则权重较低的类的实例可以距离 libsvm 确定为另一个类的实例的类之间的边界的 3 倍以获得相同的优化值。

您如何使用它完全取决于您 - 您可以将其设置为两个类的权重相等（即权重为 9 表示真），但如果您获得的结果实际上改进了使用相同的权重是另一回事。

我建议你尝试使用不同的重量来看看会发生什么。

【讨论】：

感谢您的解释。是以下的意思吗？假设我有一个不平衡的数据集，其中第 1 类的样本比第 2 类多得多。现在，如果我选择第 2 类的权重参数是第 1 类的 3 倍，我认为超平面实际上应该更接近第 1 类. 你的解释是说会更偏向少数班，即1班。你能确认一下吗？
理论上是的。在实践中，还涉及各种其他考虑因素——例如，用超平面分离类可能无法给出明确的分离。这就是为什么我说你应该尝试不同的参数，看看会发生什么。