【发布时间】:2017-08-14 13:15:38
【问题描述】:
我的目标是找到区分两个类的最重要的特征。使用多种特征选择方法中的一种来做到这一点是有意义的。
但这是我的问题:我有很多相关的特征。
通常,特征选择的目标是消除那些冗余特征。但是这些特征具有语义含义,我想避免丢失这些信息。
因此,如果一组相关特征对类变量具有很强的预测能力,我希望它们都被识别为重要的。 (额外问题:如果我在模型中包含 10 个相关特征,它们的权重最终将仅为其“实际”重要性的十分之一。)
你能想出一种特征选择方法,即使重要特征出现在相关特征组中也能找到它们?
【问题讨论】:
-
如果特征相关,为什么不以某种方式组合它们,即做一些特征工程?
-
谢谢德雷。好点子!问题是我的特征并不完全相关——既不相互关联,也不与类变量相关。这使得很难以有意义的方式组合这些功能。我尝试根据频繁项集组合我的二进制特征,但结果是非常混乱的特征组合......
-
1.如果您拥有完全相关的特征,那么这些特征会以不止一种方式对您的数据不利。 2. 设计特征的方法不止一种。 3. 如果你的特征很少,你可以用 k 作为你拥有的特征的数量来应用 PCA。这将转换您的数据,保留方差和协方差。此外,它还允许您(无损地)将您的 PCA 数据转换回原始特征空间以进行解释。 (但这不是特征工程)。 4. 对您的数据使用双射变换... 5. 有很多 - 您需要分享数据的细节。
标签: r machine-learning correlation feature-extraction feature-selection