【问题标题】:Feature Subset Selection特征子集选择
【发布时间】:2018-10-03 10:24:00
【问题描述】:

在降低数据集的维度之前,我们将学习算法应用于该数据集,并获得一个目标函数,该函数会为数据样本生成结果。这可能是我们的分类器或回归器。

之后,我们应用特征选择或特征提取方法。我想知道的是子集选择算法,这是适应特征选择方法的算法:

根据我迄今为止阅读的资源,“您从一个空特征集开始,在算法的每一步中,都会选择提高目标函数性能的特征并将其添加到您的特征集中。此操作继续进行直到添加新功能不会提高分类器或回归器的性能。”

如果添加新功能继续提高我的目标函数的性能怎么办?在这种情况下,我必须将所有功能添加到我的功能集中,这意味着我选择了所有功能。但是,我正在尝试减少数据样本的维度。

【问题讨论】:

    标签: machine-learning feature-selection dimensionality-reduction


    【解决方案1】:

    这取决于问题和您的数据集;但总的来说,使用您所描述的特征选择策略(顺序前向选择),最终结果不太可能保留所有变量。在大多数情况下,您要么会找到局部最小值,要么会找到不相关的变量。

    但是,在极少数情况下,这基本上是在告诉您数据集中的所有特征都很重要 - 即删除 任何模型的准确性。

    如果上述对您来说不是问题,您可以修改您的目标函数(因此它同时考虑当前准确度和已消除特征的百分比 - 可能作为加权目标)或更改您的特征选择启发式(您可以例如,使用 Sequential Backward Selection - 它非常相似,但最初会考虑所有特征,然后尝试将它们一一删除)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-03-18
      • 2016-03-16
      • 1970-01-01
      • 2019-10-22
      • 2013-02-21
      • 2015-08-10
      相关资源
      最近更新 更多