使用 XGBoost 进行超参数网格搜索 - 评分函数与评估指标答案

【问题标题】：Hyperparameter Grid Search with XGBoost - Scoring function vs Evaluation Metric使用 XGBoost 进行超参数网格搜索 - 评分函数与评估指标
【发布时间】：2019-06-10 08:13:10
【问题描述】：

处理不平衡数据集问题（7% 对 93%），我想使用 grid search cross-validation 找出我的 xgboost 模型的最佳结构。 注意：我使用分层的 k 折交叉验证来确保每个折叠具有正确比例的少数类。

我的情况如下，我注意到 GridSearchCV 有一个名为“评分”的参数，我可以将多个 sklearn.metrics 传递给它，如图所示 here. 但是，xgboost 还有一个名为“eval_metric”的参数，我是两者之间有点混淆。如果有区别，你能解释一下吗？在哪里指定它的正确位置？

我会附上一点代码来说明：

params_grid = {
'n_estimators': [100, 300],
'learning_rate': [0.01, 0.1, 0.3],
'colsample_bytree': [0.3, 0.5],
}

params_fixed = {
    'objective':'binary:logistic',
    'silent':1,
    'eval_metric':'auc'
}


n_folds = 5
skf = StratifiedKFold(n_splits=n_folds,random_state=seed,shuffle=True)

# create xgboost classifier
xgb = XGBClassifier(**params_fixed, seed=seed)

grid_search = GridSearchCV(estimator=xgb, param_grid=params_grid, 
                               cv=skf.split(X_train, y_train), scoring='balanced_accuracy')

此外，在我的情况下，您会推荐使用哪个功能？它可以来自 searn.metrics 甚至是自定义的，但我还不知道如何编写它。请注意，我的问题是召回和精度之间的权衡问题，但召回对我来说是最重要的，因为我想在 99% 的情况下检测少数类。

【问题讨论】：

标签： python machine-learning scikit-learn data-science xgboost

【解决方案1】：

将我的评论变成答案，没有任何绕过，一切仍然有效，但它只是没有意义。每个算法都会最大化您告诉它的指标，因此在您的示例中，xgboost 将构建树以最大化 auc，并且网格搜索将找到最大化准确性的超参数。这显然没有任何意义。

因此，您应该将两个指标设置为相同，无论是 AUC、召回率还是您认为适合您问题的任何指标；对于不平衡的数据集，AUC 是一个不错的选择，或者您可以选择更平衡的 F 分数。

【讨论】：