【问题标题】:Why features extraction?为什么要提取特征?
【发布时间】:2014-11-14 04:20:21
【问题描述】:

在模式识别中,为什么特征提取很重要?为什么我们必须减少特征空间?仅仅是计算问题还是这个过程提高了分类器的泛化能力?

【问题讨论】:

    标签: machine-learning feature-extraction


    【解决方案1】:

    特征提取不仅仅是计算复杂性。对于固定数量的训练样本,如果特征数量变得足够多,分类器的性能会显着下降。见Curse of Dimensionality

    作为一个实际案例,考虑一个使用多元正态统计(均值和协方差)的分类器。对于N 训练样本和k 特征,对于N < k,协方差矩阵将变为奇异矩阵。因此,如果不能增加样本数,就需要减少特征数才能使用分类器。

    【讨论】:

    • 这只有在你不使用正则化的情况下才成立,基本上一直都在使用。
    • @AndreasMueller 如果您可以扩展该评论​​或提供一些参考,那就太好了。我在许多情况下都使用过特征提取——并且看到它被使用过,而正则化绝对不是“基本上一直都在使用”。
    • 正则化不是为了特征提取而是为了监督任务。比如在文本分类中,特征的数量就是字典的大小(甚至更大),所以n_samples << n_features很规律。不过,如果您使用正则化,这并不是真正的问题。
    • 除了这个问题是专门关于特征提取以及为什么这样做的。它可能与文本分类不太相关,其中所需的特征通常字典单词的计数/频率,但它非常相关并且经常用于其他分类问题。还应该注意的是,正则化不是“免费的”,因为它具有将偏差引入估计器/分类器的副作用。
    【解决方案2】:

    两者:较小的特征空间(显然?)更易于处理,消除不重要的细节会删除需要“围绕”概括的东西。

    【讨论】:

      猜你喜欢
      • 2017-01-01
      • 2017-11-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-07-13
      • 1970-01-01
      • 2019-07-25
      • 2022-01-16
      相关资源
      最近更新 更多