【问题标题】:Is it possible to Oversample just one class out of 13?是否可以仅对 13 个类中的一个类进行过度采样?
【发布时间】:2021-04-20 18:50:40
【问题描述】:

我想知道是否可以只对一个小班执行 SMOTE 或类似技术。我有一个文本分类问题,其中所有次要类别都具有良好的准确度(区分它们的唯一词),除了一个类别中的所有词都与其他 13 个类别重叠,因此预测准确度非常低(31%) 我正在尝试增加仅此类的样本数量!

【问题讨论】:

    标签: text classification oversampling


    【解决方案1】:

    是的,您可以对单个类使用合成过采样。如果您只是想加强少数类的现有分布,SMOTE 可以提供帮助,或者如果您更担心决策表面,则可能值得尝试使用 ADASYN 过采样和去除多数 Tomek Link 进行欠采样等技术。

    【讨论】:

    • 完美!谢谢你 。我想 ADASYN 就是我所需要的。但是,如果我应用采样技术,我怎么知道我的算法会在新的看不见的数据上表现良好。
    • 为了达到这个目的,你仍然需要保留一些少数类和其他类来测试
    猜你喜欢
    • 2017-06-08
    • 2020-10-23
    • 2019-12-02
    • 2020-09-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-06-21
    • 1970-01-01
    相关资源
    最近更新 更多