【发布时间】:2021-04-20 18:50:40
【问题描述】:
我想知道是否可以只对一个小班执行 SMOTE 或类似技术。我有一个文本分类问题,其中所有次要类别都具有良好的准确度(区分它们的唯一词),除了一个类别中的所有词都与其他 13 个类别重叠,因此预测准确度非常低(31%) 我正在尝试增加仅此类的样本数量!
【问题讨论】:
标签: text classification oversampling
我想知道是否可以只对一个小班执行 SMOTE 或类似技术。我有一个文本分类问题,其中所有次要类别都具有良好的准确度(区分它们的唯一词),除了一个类别中的所有词都与其他 13 个类别重叠,因此预测准确度非常低(31%) 我正在尝试增加仅此类的样本数量!
【问题讨论】:
标签: text classification oversampling
是的,您可以对单个类使用合成过采样。如果您只是想加强少数类的现有分布,SMOTE 可以提供帮助,或者如果您更担心决策表面,则可能值得尝试使用 ADASYN 过采样和去除多数 Tomek Link 进行欠采样等技术。
【讨论】: