【发布时间】:2018-05-21 04:29:11
【问题描述】:
我创建了一个表格来测试我的理解
F1 F2 Outcome
0 2 5 1
1 4 8 2
2 6 0 3
3 9 8 4
4 10 6 5
我试图从 F1 和 F2 预测结果
如您所见,F1 与 Outcome 有很强的相关性,F2 是随机噪声
我测试过
pca = PCA(n_components=2)
fit = pca.fit(X)
print("Explained Variance")
print(fit.explained_variance_ratio_)
Explained Variance
[ 0.57554896 0.42445104]
这是我的预期,表明 F1 更重要
但是当我做 RFE(递归特征消除)时
model = LogisticRegression()
rfe = RFE(model, 1)
fit = rfe.fit(X, Y)
print(fit.n_features_)
print(fit.support_)
print(fit.ranking_)
1
[False True]
[2 1]
它要求我改为保留 F2?它应该要求我保留 F1,因为 F1 是强预测因子,而 F2 是随机噪声……为什么要 F2?
谢谢
【问题讨论】:
标签: machine-learning scikit-learn