【问题标题】:sklearn univariate feature selectionsklearn 单变量特征选择
【发布时间】:2014-02-27 20:16:28
【问题描述】:

我正在尝试使用 sklearn 单变量特征选择来过滤掉不相关的特征:

ufs = feature_selection.SelectPercentile(feature_selection.f_classif, percentile = 60)
X_default_cvtrain = ufs.fit_transform( X_cvtrain, Y_cvtrain )

但是,我收到以下警告:

UserWarning: Duplicate scores. Result may depend on feature ordering.
             There are probably duplicate features, or you used a classification score for a regression task.
warn("Duplicate scores. Result may depend on feature ordering."

这是什么意思?这是怎么回事?

谢谢。

【问题讨论】:

  • 警告信息中有什么不明白的地方?
  • @ogrisel 抱歉,我的意思是为什么会出现这个警告。
  • 可能的原因是:“可能有重复的特征,或者您在回归任务中使用了分类分数。”我们不能比这更明确:去检查你的数据。

标签: python machine-learning scikit-learn


【解决方案1】:

这意味着有重复的分数,所以选择的特征取决于特征排序。 一个可能的原因是您有重复的功能。

【讨论】:

  • 喝杯咖啡后不那么自命不凡:这意味着存在重复的相关性(F)分数,因此选择哪些特征取决于数组中特征的顺序。一个可能的原因是几个功能是相同的。
  • 感谢您的帮助。但是否也有可能两个不同特征的值向量恰好相同?
猜你喜欢
  • 2016-05-08
  • 2017-04-06
  • 2017-04-26
  • 2014-09-21
  • 2019-01-12
  • 2021-04-27
  • 2016-01-02
  • 2018-02-27
  • 2021-10-20
相关资源
最近更新 更多