【发布时间】:2019-11-08 21:43:30
【问题描述】:
我的数据中的标签是一个 (N x 1) 向量。负样本的标签值为 0,正样本的标签值为 1(因此,这是一个二元分类问题)。我使用 sklearn 的 .fit 函数并在我的火车上安装了一个随机森林。要计算测试集的 AUC,我使用 metrics.roc_auc_score (test_labels, probabilities)。我正在使用
predict_proba(my_test_set) 获取概率。但是,predict_proba(my_test_set) 返回一个 (N_test, 2) 矩阵。我看到很多人使用这个返回矩阵的第二列 (predict_proba(my_test_set)[:,1]) 并将其提供给metrics.roc_auc_score 来计算 AUC,但为什么是第二列呢?为什么不是第一列 (predict_proba(my_test_set)[:,0])?
【问题讨论】:
标签: scikit-learn random-forest auc