【发布时间】:2020-07-25 07:07:45
【问题描述】:
我正在尝试测试以下分类器的预测分数:
- random forest
- k neighbors
- svm
- naïve bayes
我没有使用特征选择或特征缩放(根本没有预处理)。
我正在使用如下训练测试拆分:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)
我测试了几个数据集(来自sklearn):
- load_iris
- load_breast_cancer
- load_wine
在所有这 3 个中,随机森林总是给出完美的预测(测试准确度 1.0)。
我尝试创建随机样本进行分类:
make_classification(flip_y=0.3, weights = [0.65, 0.35], n_features=40, n_redundant=4, n_informative=36,n_classes=2,n_clusters_per_class=1, n_samples=50000)
随机森林再次对测试集给出了完美的预测(准确度 1.0)。
所有其他分类器在测试集上的表现都不错 (0.8-0.97),但不如随机森林那么完美 (1.0)。
- 我错过了什么?
- 随机森林真的以完美的方式胜过所有其他分类器吗?
【问题讨论】:
-
我们说的是训练预测还是测试预测?
-
测试预测:score(X_test, y_test)
标签: machine-learning scikit-learn classification random-forest