相关特征和分类准确度答案

【问题标题】：Correlated features and classification accuracy相关特征和分类准确度
【发布时间】：2013-01-26 15:46:56
【问题描述】：

我想问大家一个问题，相关特征（变量）如何影响机器学习算法的分类准确性。对于相关特征，我的意思是它们之间的相关性，而不是与目标类别的相关性（即几何图形的周长和面积或教育水平和平均收入）。在我看来，相关特征会对分类算法的准确性产生负面影响，我想说是因为相关性使得其中一个变得无用。真的是这样吗？问题是否随分类算法类型而改变？任何关于论文和讲座的建议都非常欢迎！谢谢

【问题讨论】：

如何将特征与目标类关联起来？

标签： machine-learning classification correlation feature-selection

【解决方案1】：

相关特征本身不会影响分类准确性。实际情况下的问题是，我们有有限数量的训练示例来训练分类器。对于固定数量的训练示例，增加特征数量通常会将分类准确度提高到一个点，但随着特征数量的不断增加，分类准确度最终会降低，因为我们相对于样本欠采样大量的功能。要了解有关此内容的更多信息，请查看curse of dimensionality。

如果两个数值特征完全相关，则其中一个不会添加任何附加信息（由另一个决定）。因此，如果特征数量过多（相对于训练样本大小），则通过feature extraction 技术（例如，通过principal components）减少特征数量是有益的

相关性的效果确实取决于分类器的类型。一些非参数分类器对变量的相关性不太敏感（尽管训练时间可能会随着特征数量的增加而增加）。对于高斯最大似然等统计方法，相对于训练样本量有太多相关特征会导致分类器在原始特征空间中无法使用（样本数据的协方差矩阵变得奇异）。

【讨论】：

同样重要的是要提到机器学习算法的计算量非常大，将特征减少到独立组件（或至少是主组件）可以大大减少所需的资源量。
我的回答只关注给定的分类准确性问题，但你提出了一个很好的（和相关的）观点。除了增加的系统要求外，训练和分类时间还会随着特征的数量呈指数增长。
即使是高度相关的特征也可以提供有价值的进一步信息，例如在分类的情况下。

【解决方案2】：

一般来说，我认为特征越不相关，分类器的性能就会越好。给定一组高度相关的特征，可以使用 PCA 技术使它们尽可能正交，以提高分类器性能。

【讨论】：

这不是真的。由于 PCA 试图选择具有最大方差的组件，因此高相关性会导致 PCA 夸大组件的影响。
请我对您的评论和给出的答案感到困惑