【发布时间】:2021-05-17 04:11:11
【问题描述】:
数据集有大约 15 万条记录,有四个标签:['A','B','C','D'],分布如下:
答:60000
乙:50000
C: 36000
D:4000
我注意到使用包分类报告来获取精度、召回率和 f1 分数时,f1 分数会导致 UndefinedMetricWarning,因为由于记录数量少,无法预测 D 类。
我知道我需要执行过采样/欠采样来修复不平衡的数据。
问题:修复不平衡数据但从每个类中随机抽取 4000 条记录以使其平衡是否是个好主意?
【问题讨论】:
标签: python multilabel-classification imbalanced-data