【问题标题】:Imbalanced Dataset in weka? Does not workweka中的不平衡数据集?不工作
【发布时间】:2014-06-19 01:06:16
【问题描述】:

我有 239 个阳性数据集和 32 个阴性数据集,因为它是与癌症相关的数据,我们只有很少的阴性数据集。现在在应用分类时,确保不平衡的数据集由于数量庞大而过于偏向正数。所以我尝试在 weka 中应用 SMOTE。我也尝试了各种百分比和最近的邻居。令我惊讶的是,而不是负类增加了一些实例,而正类进一步增加,使不平衡的数据集过于偏颇。可以做些什么来克服这一点。并建议我一些其他方法??如果有的话

对于初步研究,我们使用带有 RBF 作为分类器的 LIBSVM

【问题讨论】:

    标签: classification weka


    【解决方案1】:

    在这个不平衡的数据集问题中,我建议使用分层,这涉及对少数类进行过采样或对多数类进行下采样。您可以利用成本敏感分类在 WEKA 中模拟分层。

    您可以使用两个分类器,MetaCostCostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过实验获得。根据经验,您可以尝试通过使用与类分布相反的权重来平衡类分布。在您的情况下,这意味着在成本矩阵中将 239 的成本分配给误报,将 32 的权重分配给误报。

    【讨论】:

    • 正如你所说,我能够分配 239 FP,但是当我将 FN 更改为 32 并保存成本文件时,显示 FN 仅为 1.0。我尝试更改它几次,但我无法更改为 32.0。我的问题是我无法编辑成本矩阵。怎么做 。无论我给出什么值作为 FN 都考虑为 1.0
    • 哇!有用!!!我试图保存成本文件和“按需加载成本文件”。它的作用类似于“Easy Juicy Lemon Squeezy”。我在终端的 Libsvm 中尝试过同样的类型,但不习惯于 GUI 版本。现在它根据您的 cmets 效果很好。谢谢你
    • 对此感到高兴。祝你考试顺利!
    猜你喜欢
    • 2021-12-12
    • 1970-01-01
    • 2017-03-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-05-07
    • 2022-11-15
    相关资源
    最近更新 更多