weka中的不平衡数据集？不工作答案

【问题标题】：Imbalanced Dataset in weka? Does not workweka中的不平衡数据集？不工作
【发布时间】：2014-06-19 01:06:16
【问题描述】：

我有 239 个阳性数据集和 32 个阴性数据集，因为它是与癌症相关的数据，我们只有很少的阴性数据集。现在在应用分类时，确保不平衡的数据集由于数量庞大而过于偏向正数。所以我尝试在 weka 中应用 SMOTE。我也尝试了各种百分比和最近的邻居。令我惊讶的是，而不是负类增加了一些实例，而正类进一步增加，使不平衡的数据集过于偏颇。可以做些什么来克服这一点。并建议我一些其他方法？？如果有的话

对于初步研究，我们使用带有 RBF 作为分类器的 LIBSVM

【问题讨论】：

标签： classification weka

【解决方案1】：

在这个不平衡的数据集问题中，我建议使用分层，这涉及对少数类进行过采样或对多数类进行下采样。您可以利用成本敏感分类在 WEKA 中模拟分层。

您可以使用两个分类器，MetaCost 和 CostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过实验获得。根据经验，您可以尝试通过使用与类分布相反的权重来平衡类分布。在您的情况下，这意味着在成本矩阵中将 239 的成本分配给误报，将 32 的权重分配给误报。

【讨论】：

正如你所说，我能够分配 239 FP，但是当我将 FN 更改为 32 并保存成本文件时，显示 FN 仅为 1.0。我尝试更改它几次，但我无法更改为 32.0。我的问题是我无法编辑成本矩阵。怎么做。无论我给出什么值作为 FN 都考虑为 1.0
哇！有用！！！我试图保存成本文件和“按需加载成本文件”。它的作用类似于“Easy Juicy Lemon Squeezy”。我在终端的 Libsvm 中尝试过同样的类型，但不习惯于 GUI 版本。现在它根据您的 cmets 效果很好。谢谢你
对此感到高兴。祝你考试顺利！