【问题标题】:Remove noisy and redundant features删除嘈杂和冗余的功能
【发布时间】:2013-11-02 04:52:29
【问题描述】:

我根据面部标记从视频序列中提取了特征,作为这些标记在视频序列上的平均值和标准差。需要根据这些标记将它们分为四个不同的类别。

总的来说,我有一个包含大约 260 个功能的功能集。我应该如何确定我的集合中哪些特征是嘈杂和冗余的。我在一些研究论文中读到了它,其中一些使用了我认为非常合适的 plus l take away r 算法,但在这样的算法中,他们总是将一个特征与另一个特征进行比较,并说它与它相比是好是坏。 我如何评价我的功能是好是坏?一般采用什么标准?

我研究了几天,但没有发现任何明确且有用的东西。非常感谢您的帮助,谢谢。

【问题讨论】:

    标签: algorithm machine-learning data-mining feature-extraction feature-selection


    【解决方案1】:

    使用分类率来确定特征子集的好坏程度。你有 260 个特征,然后有 2^260 个子集,这太多了!在这个空间中搜索是非常困难的。因此,最好通过过滤方法(例如 FA、t-test、fisher 和...)删除一些特征,然后使用您的搜索方法找到特征的最佳子集。 加上 l 带走 r 算法(或其他搜索算法)找到各种子集并对其进行评分(在此阶段使用分类率),最后指定哪个子集更好。

    【讨论】:

      【解决方案2】:

      你可以使用 pca 或者你可以训练一些分类器,然后你循环你的所有特征,为每个特征添加一个很大的值,测试这种改变是否改变了分类器的精度,如果没有,你可以删除这个特征,删除所有冗余特征后,然后重新训练您的分类器!

      训练不是一个分类器而是训练很多分类器是个好主意,它们会根据投票做出预测,你可以使用 matlab 中的 MODE 函数来做到这一点!

      【讨论】:

        【解决方案3】:

        将您的 260 度功能视为 260 维空间的基础。但是,您的基向量彼此不正常,因此它们包含大量冗余信息。您希望将这些向量转换为所有向量相互垂直的向量集,从而在不丢失(大量)信息的情况下最小化维度。

        这就是Principal component analysis 所做的。

        Linear discriminant analysis 您可能也感兴趣。

        【讨论】:

        • 那些是为了减少。我确实知道这些,但目前我必须基于 SFS 或 SBS 或两者的组合应用一些东西。我的问题是我知道这些算法如何使用距离标准来区分我的特征。
        猜你喜欢
        • 1970-01-01
        • 2019-04-24
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-10-16
        相关资源
        最近更新 更多