【发布时间】:2021-01-26 14:37:21
【问题描述】:
我有一个高度不平衡的文本文档数据集(3% 是,87% 否),其中包含标题和摘要特征。我已将这些文档转换为带有填充批次的tf.data.Dataset 实体。现在,我正在尝试使用深度学习来训练这个数据集。使用 TensorFlow 中的 model.fit(),您可以使用 class_weights 参数来处理类不平衡,但是,我正在使用 keras-tuner 库寻找最佳参数。在他们的超参数调谐器中,他们没有这样的选择。因此,我正在寻找其他解决类不平衡的方法。
有没有在keras-tuner 中使用类权重的选项?补充一点,我已经在使用precision@recall 指标。我也可以尝试一种数据重采样方法,例如imblearn.over_sampling.SMOTE,但正如this Kaggle 帖子所述:
SMOTE 似乎无助于改善结果。但是,它使网络学习更快。此外,还有一个大问题,这种方法不兼容更大的数据集。您必须对嵌入的句子应用 SMOTE,这会占用太多内存。
【问题讨论】:
标签: python tensorflow keras imbalanced-data keras-tuner