【发布时间】:2014-12-25 16:12:25
【问题描述】:
我有一个 scikit-learn 模型,稍微简化一下如下:
clf1 = RandomForestClassifier()
clf1.fit(data_training, non_binary_labels_training)
prediction1 = clf1.predict(data_testing)
clf2 = RandomForestClassifier()
binary_labels = label_binarize(non_binary_labels_training, ["a", "b", "c"])
clf2.fit(data_training, binary_labels)
prediction2 = clf2.predict(data_testing)
f1_score1(non_binary_labels_testing, prediction1))
f1_score2(binary_labels_testing, prediction2))
现在,f1_score1 总是比 f1_score2 好。换句话说,多类标签比二元标签(从相同的多类标签生成)得分更高。有什么原因吗?这是预期的吗?
我有大约 70 个训练和测试文件以及 36 个类(不是上面示例中的三个)。
【问题讨论】:
标签: machine-learning scipy scikit-learn random-forest multilabel-classification