特征子集选择答案

【问题标题】：Feature Subset Selection特征子集选择
【发布时间】：2018-10-03 10:24:00
【问题描述】：

在降低数据集的维度之前，我们将学习算法应用于该数据集，并获得一个目标函数，该函数会为数据样本生成结果。这可能是我们的分类器或回归器。

之后，我们应用特征选择或特征提取方法。我想知道的是子集选择算法，这是适应特征选择方法的算法：

根据我迄今为止阅读的资源，“您从一个空特征集开始，在算法的每一步中，都会选择提高目标函数性能的特征并将其添加到您的特征集中。此操作继续进行直到添加新功能不会提高分类器或回归器的性能。”

如果添加新功能继续提高我的目标函数的性能怎么办？在这种情况下，我必须将所有功能添加到我的功能集中，这意味着我选择了所有功能。但是，我正在尝试减少数据样本的维度。

【问题讨论】：

【解决方案1】：

这取决于问题和您的数据集；但总的来说，使用您所描述的特征选择策略（顺序前向选择），最终结果不太可能保留所有变量。在大多数情况下，您要么会找到局部最小值，要么会找到不相关的变量。

但是，在极少数情况下，这基本上是在告诉您数据集中的所有特征都很重要 - 即删除任何模型的准确性。

如果上述对您来说不是问题，您可以修改您的目标函数（因此它同时考虑当前准确度和已消除特征的百分比 - 可能作为加权目标）或更改您的特征选择启发式（您可以例如，使用 Sequential Backward Selection - 它非常相似，但最初会考虑所有特征，然后尝试将它们一一删除）。

【讨论】：