如何选择特征选择算法？ - 建议答案

【问题标题】：How to choose a Feature Selection Algorithm? - advice如何选择特征选择算法？ - 建议
【发布时间】：2011-01-05 04:05:04
【问题描述】：

是否有我可以阅读的研究论文/书籍可以告诉我手头的问题哪种特征选择算法最有效。

我试图简单地将 twitter 消息识别为 pos/neg（开始）。我从基于频率的特征选择开始（从 NLTK 书开始），但很快意识到对于类似的问题，不同的人选择了不同的算法

虽然我可以尝试基于频率、互信息、信息增益和各种其他算法，但列表似乎无穷无尽。我想知道是否有一种有效的方法，然后试错。

任何建议

【问题讨论】：

标签： nlp nltk semantic-analysis

【解决方案1】：

上学期我参加了 NLP 课程，很明显，情绪分析是没有人真正知道如何做好的事情（目前）。用无监督学习做到这一点当然更难。

关于这个有很多研究正在进行，其中一些是商业的，因此不向公众开放。我无法向您指出任何研究论文，但我们用于课程的书是this (google books preview)。也就是说，这本书涵盖了很多材料，可能不是找到解决这个特定问题的最快方法。

我可以为您指出的唯一另一件事是尝试使用谷歌搜索，也许在 Academic.google.com 中进行“情绪分析”或“意见挖掘”。

查看 NLTK movie_reviews 语料库。评论已经被 pos/neg 分类，可能会帮助你训练你的分类器。尽管您在 Twitter 中找到的语言可能与那些语言非常不同。

最后一点，请在此处发布任何成功（或失败）。这个问题肯定会在稍后出现。

【讨论】：

这本书有没有附带的代码，还是理论很重？
它的理论很重，主要关注方法的数学背景，而不是它们的实现。我是从谷歌书籍中找到的，你可以在那里浏览。我会将链接添加到我的原始帖子。

【解决方案2】：

不幸的是，在处理机器学习时，没有任何灵丹妙药。它通常被称为"No Free Lunch" 定理。基本上，许多算法都适用于一个问题，有些算法在某些问题上做得更好，而在另一些问题上做得更差。总的来说，它们的表现都差不多。对于给定的数据集，相同的特征集可能会导致一种算法性能更好，而另一种算法性能更差。对于不同的数据集，情况可能会完全相反。

通常我会选择一些在类似任务中对其他人有用的特征选择算法，然后从这些算法开始。如果我使用我最喜欢的分类器获得的性能是可以接受的，那么再寻找半个百分点可能不值得我花时间。但如果它不可接受，那么是时候重新评估我的方法，或者寻找更多的特征选择方法了。

【讨论】：

【解决方案3】：

你试过我在你上一个问题时推荐的书吗？它可以在线免费获得，完全与您正在处理的任务有关：Sentiment Analysis and Opinion Mining 由 Pang 和 Lee 撰写。第 4 章（“提取与分类”）正是您所需要的！

【讨论】：

我没有意识到它是免费提供的——我刚刚看到了这个问题并找到了 pdf——我认为它可能很有趣——当我看到 99 美元的价格标签时，我有点被劝阻了亚马逊 - 感谢您的帮助。我现在正在读它..
不客气。顺便说一句，现在你的声望超过 15 点，你也可以投票了，呵呵... ;-)