【发布时间】:2018-09-25 14:43:42
【问题描述】:
我正在尝试从许多连续特征中预测二元(分类)目标,并希望在进行模型拟合之前缩小您的特征空间。我注意到 SKLearn 的 Feature Selection 包中的 SelectKBest 类在 Iris 数据集上有以下示例(它也从连续特征中预测二进制目标):
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X, y = iris.data, iris.target
X.shape
(150, 4)
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
X_new.shape
(150,2)
该示例使用 chi2 检验来确定模型中应使用哪些特征。然而,据我了解,chi2 测试严格用于我们具有预测分类性能的分类特征的情况。我不认为 chi2 测试可以用于这样的场景。我的理解错了吗? chi2检验可以用来检验分类变量是否依赖于连续变量吗?
【问题讨论】:
标签: python scikit-learn feature-selection chi-squared