sklearn 单变量特征选择答案

【问题标题】：sklearn univariate feature selectionsklearn 单变量特征选择
【发布时间】：2014-02-27 20:16:28
【问题描述】：

我正在尝试使用 sklearn 单变量特征选择来过滤掉不相关的特征：

ufs = feature_selection.SelectPercentile(feature_selection.f_classif, percentile = 60)
X_default_cvtrain = ufs.fit_transform( X_cvtrain, Y_cvtrain )

但是，我收到以下警告：

UserWarning: Duplicate scores. Result may depend on feature ordering.
             There are probably duplicate features, or you used a classification score for a regression task.
warn("Duplicate scores. Result may depend on feature ordering."

这是什么意思？这是怎么回事？

谢谢。

【问题讨论】：

警告信息中有什么不明白的地方？
@ogrisel 抱歉，我的意思是为什么会出现这个警告。
可能的原因是：“可能有重复的特征，或者您在回归任务中使用了分类分数。”我们不能比这更明确：去检查你的数据。

标签： python machine-learning scikit-learn

【解决方案1】：

这意味着有重复的分数，所以选择的特征取决于特征排序。一个可能的原因是您有重复的功能。

【讨论】：

喝杯咖啡后不那么自命不凡：这意味着存在重复的相关性（F）分数，因此选择哪些特征取决于数组中特征的顺序。一个可能的原因是几个功能是相同的。
感谢您的帮助。但是否也有可能两个不同特征的值向量恰好相同？