【发布时间】:2011-07-10 12:18:56
【问题描述】:
我正在尝试创建自己的简单特征选择算法。我要使用的数据集是here(非常著名的数据集)。有人可以指点我怎么做吗?
我打算为文本分类编写一个特征排名算法。这是为了对电影评论进行情感分析,将其分类为正面或负面。
所以我的问题是如何为文本数据集编写简单的特征选择。
【问题讨论】:
-
这是一个很大的话题。您是否遇到了具体的问题,或者您需要从哪里开始的想法?
-
我只是想消除给分类增加噪音的特征。但是我如何系统地选择这些类型的词呢?什么是给我最好的准确性的适当数量的特征以及哪些词......我想这就是我希望算法的最终结果是什么
标签: algorithm machine-learning data-mining semantic-analysis