【发布时间】:2017-04-19 11:56:23
【问题描述】:
我有一个包含大约 20000 个训练示例的数据集,我想在其上进行二进制分类。 问题是数据集严重不平衡,只有大约 1000 个属于正类。我正在尝试使用 xgboost(在 R 中)进行预测。
我尝试过过采样和欠采样,无论我做什么,预测总是会导致将所有内容分类为多数类。
我尝试阅读这篇关于如何在 xgboost 中调整参数的文章。 https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/
但它只提到哪些参数有助于处理不平衡的数据集,而不是如何调整它们。
如果有人对调整 xgboost 的学习参数以处理不平衡数据集以及如何为此类情况生成验证集有任何建议,我将不胜感激。
【问题讨论】: