【问题标题】:Simplest feature selection algorithm最简单的特征选择算法
【发布时间】:2011-07-10 12:18:56
【问题描述】:

我正在尝试创建自己的简单特征选择算法。我要使用的数据集是here(非常著名的数据集)。有人可以指点我怎么做吗?

我打算为文本分类编写一个特征排名算法。这是为了对电影评论进行情感分析,将其分类为正面或负面。

所以我的问题是如何为文本数据集编写简单的特征选择。

【问题讨论】:

  • 这是一个很大的话题。您是否遇到了具体的问题,或者您需要从哪里开始的想法?
  • 我只是想消除给分类增加噪音的特征。但是我如何系统地选择这些类型的词呢?什么是给我最好的准确性的适当数量的特征以及哪些词......我想这就是我希望算法的最终结果是什么

标签: algorithm machine-learning data-mining semantic-analysis


【解决方案1】:

我目前使用这种方法:

计算每个类的数据的平均值和方差。一个好的候选特征应该有小的方差,并且平均值应该不同于其他类的平均值。

目前只有 所有类的平均值的方差,并为具有更大方差的那些赋予更高的优先级。然后,首先选择那些在一个类中具有较小方差的。

当然,这不会删除多余的功能。

【讨论】:

    【解决方案2】:

    特征选择方法是一个很大的话题。你可以从以下开始:

    1. 卡方

    2. 相互信息

    3. 词频

    等等。如果您有时间,请阅读本文:Comparative study on feature selection in text categorization 这将对您有很大帮助。

    实际实施取决于您如何预处理数据。基本上它保持计数,无论是哈希表还是数据库。

    【讨论】:

    • 其中,词频似乎不太强大,对吧?
    • 没有。您想删除嘈杂的术语。假设一个术语只出现一次,那么很可能是它的噪音(可能是拼错的名字)。您需要进行一些测试才能做出决定。
    • 一些测试比如?删除频率排名后 50 位的术语,然后测试准确性并继续直到频率下降?
    • 最佳答案取决于您拥有的数据集。您所说的作为示例测试可以是其中一种测试。
    【解决方案3】:

    Random 功能在您构建集成时效果很好。它被称为特征装袋。

    【讨论】:

      【解决方案4】:

      这里有一个选项:使用pointwise mutual information。您的特征将是令牌,并且应该根据情绪标签来衡量信息。注意频繁使用的词(停用词),因为在这类任务中它们实际上可能很有用。

      【讨论】:

        猜你喜欢
        • 2012-12-16
        • 1970-01-01
        • 2012-02-06
        • 2013-04-17
        • 2011-01-05
        • 2021-07-26
        • 1970-01-01
        • 2015-02-11
        • 1970-01-01
        相关资源
        最近更新 更多