最简单的特征选择算法答案

【问题标题】：Simplest feature selection algorithm最简单的特征选择算法
【发布时间】：2011-07-10 12:18:56
【问题描述】：

我正在尝试创建自己的简单特征选择算法。我要使用的数据集是here（非常著名的数据集）。有人可以指点我怎么做吗？

我打算为文本分类编写一个特征排名算法。这是为了对电影评论进行情感分析，将其分类为正面或负面。

所以我的问题是如何为文本数据集编写简单的特征选择。

【问题讨论】：

这是一个很大的话题。您是否遇到了具体的问题，或者您需要从哪里开始的想法？
我只是想消除给分类增加噪音的特征。但是我如何系统地选择这些类型的词呢？什么是给我最好的准确性的适当数量的特征以及哪些词......我想这就是我希望算法的最终结果是什么

【解决方案1】：

我目前使用这种方法：

计算每个类的数据的平均值和方差。一个好的候选特征应该有小的方差，并且平均值应该不同于其他类的平均值。

目前只有所有类的平均值的方差，并为具有更大方差的那些赋予更高的优先级。然后，首先选择那些在一个类中具有较小方差的。

当然，这不会删除多余的功能。

【讨论】：

【解决方案2】：

特征选择方法是一个很大的话题。你可以从以下开始：

等等。如果您有时间，请阅读本文：Comparative study on feature selection in text categorization 这将对您有很大帮助。

实际实施取决于您如何预处理数据。基本上它保持计数，无论是哈希表还是数据库。

【讨论】：

【解决方案3】：

Random 功能在您构建集成时效果很好。它被称为特征装袋。

【讨论】：

【解决方案4】：

这里有一个选项：使用pointwise mutual information。您的特征将是令牌，并且应该根据情绪标签来衡量信息。注意频繁使用的词（停用词），因为在这类任务中它们实际上可能很有用。

【讨论】：