删除嘈杂和冗余的功能答案

【问题标题】：Remove noisy and redundant features删除嘈杂和冗余的功能
【发布时间】：2013-11-02 04:52:29
【问题描述】：

我根据面部标记从视频序列中提取了特征，作为这些标记在视频序列上的平均值和标准差。需要根据这些标记将它们分为四个不同的类别。

总的来说，我有一个包含大约 260 个功能的功能集。我应该如何确定我的集合中哪些特征是嘈杂和冗余的。我在一些研究论文中读到了它，其中一些使用了我认为非常合适的 plus l take away r 算法，但在这样的算法中，他们总是将一个特征与另一个特征进行比较，并说它与它相比是好是坏。我如何评价我的功能是好是坏？一般采用什么标准？

我研究了几天，但没有发现任何明确且有用的东西。非常感谢您的帮助，谢谢。

【问题讨论】：

标签： algorithm machine-learning data-mining feature-extraction feature-selection

【解决方案1】：

使用分类率来确定特征子集的好坏程度。你有 260 个特征，然后有 2^260 个子集，这太多了！在这个空间中搜索是非常困难的。因此，最好通过过滤方法（例如 FA、t-test、fisher 和...）删除一些特征，然后使用您的搜索方法找到特征的最佳子集。加上 l 带走 r 算法（或其他搜索算法）找到各种子集并对其进行评分（在此阶段使用分类率），最后指定哪个子集更好。

【讨论】：

【解决方案2】：

你可以使用 pca 或者你可以训练一些分类器，然后你循环你的所有特征，为每个特征添加一个很大的值，测试这种改变是否改变了分类器的精度，如果没有，你可以删除这个特征，删除所有冗余特征后，然后重新训练您的分类器！

训练不是一个分类器而是训练很多分类器是个好主意，它们会根据投票做出预测，你可以使用 matlab 中的 MODE 函数来做到这一点！

【讨论】：

【解决方案3】：

将您的 260 度功能视为 260 维空间的基础。但是，您的基向量彼此不正常，因此它们包含大量冗余信息。您希望将这些向量转换为所有向量相互垂直的向量集，从而在不丢失（大量）信息的情况下最小化维度。

这就是Principal component analysis 所做的。

Linear discriminant analysis 您可能也感兴趣。

【讨论】：

那些是为了减少。我确实知道这些，但目前我必须基于 SFS 或 SBS 或两者的组合应用一些东西。我的问题是我知道这些算法如何使用距离标准来区分我的特征。