【发布时间】:2021-10-08 03:21:46
【问题描述】:
我正在尝试在二进制分类设置中训练 XGBOOST,正负实例的比例为 1:5。我的数据与癌症检测类似,即 FN 比 FP 成本高得多。经过相当多的阅读,我仍然对以下内容感到困惑:
首先,我是否有必要通过过度采样来平衡类?我的数据大小约为 160,000,其中许多条目包含某些列的 NaN。特别是关于 XGBOOST,我知道调整 scale_pos_weight 是很常见的,但文档 (https://xgboost.readthedocs.io/en/latest/tutorials/param_tuning.html) 指出这主要是为了整体 AUC 性能。我关心的主要指标是召回率,但在一定程度上也是准确度。
其次,我应该在超参数调优中尝试最大化什么指标?
感谢您的帮助。
【问题讨论】:
标签: python xgboost imbalanced-data