【问题标题】:How to choose a Feature Selection Algorithm? - advice如何选择特征选择算法? - 建议
【发布时间】:2011-01-05 04:05:04
【问题描述】:

是否有我可以阅读的研究论文/书籍可以告诉我手头的问题哪种特征选择算法最有效。

我试图简单地将 twitter 消息识别为 pos/neg(开始)。我从基于频率的特征选择开始(从 NLTK 书开始),但很快意识到对于类似的问题,不同的人选择了不同的算法

虽然我可以尝试基于频率、互信息、信息增益和各种其他算法,但列表似乎无穷无尽。我想知道是否有一种有效的方法,然后试错。

任何建议

【问题讨论】:

    标签: nlp nltk semantic-analysis


    【解决方案1】:

    上学期我参加了 NLP 课程,很明显,情绪分析是没有人真正知道如何做好的事情(目前)。用无监督学习做到这一点当然更难。

    关于这个有很多研究正在进行,其中一些是商业的,因此不向公众开放。我无法向您指出任何研究论文,但我们用于课程的书是this (google books preview)。也就是说,这本书涵盖了很多材料,可能不是找到解决这个特定问题的最快方法。

    我可以为您指出的唯一另一件事是尝试使用谷歌搜索,也许在 Academic.google.com 中进行“情绪分析”或“意见挖掘”。

    查看 NLTK movie_reviews 语料库。评论已经被 pos/neg 分类,可能会帮助你训练你的分类器。尽管您在 Twitter 中找到的语言可能与那些语言非常不同。

    最后一点,请在此处发布任何成功(或失败)。这个问题肯定会在稍后出现。

    【讨论】:

    • 这本书有没有附带的代码,还是理论很重?
    • 它的理论很重,主要关注方法的数学背景,而不是它们的实现。我是从谷歌书籍中找到的,你可以在那里浏览。我会将链接添加到我的原始帖子。
    【解决方案2】:

    不幸的是,在处理机器学习时,没有任何灵丹妙药。它通常被称为"No Free Lunch" 定理。基本上,许多算法都适用于一个问题,有些算法在某些问题上做得更好,而在另一些问题上做得更差。总的来说,它们的表现都差不多。对于给定的数据集,相同的特征集可能会导致一种算法性能更好,而另一种算法性能更差。对于不同的数据集,情况可能会完全相反。

    通常我会选择一些在类似任务中对其他人有用的特征选择算法,然后从这些算法开始。如果我使用我最喜欢的分类器获得的性能是可以接受的,那么再寻找半个百分点可能不值得我花时间。但如果它不可接受,那么是时候重新评估我的方法,或者寻找更多的特征选择方法了。

    【讨论】:

      【解决方案3】:

      你试过我在你上一个问题时推荐的书吗?它可以在线免费获得,完全与您正在处理的任务有关:Sentiment Analysis and Opinion Mining 由 Pang 和 Lee 撰写。第 4 章(“提取与分类”)正是您所需要的!

      【讨论】:

      • 我没有意识到它是免费提供的——我刚刚看到了这个问题并找到了 pdf——我认为它可能很有趣——当我看到 99 美元的价格标签时,我有点被劝阻了亚马逊 - 感谢您的帮助。我现在正在读它..
      • 不客气。顺便说一句,现在你的声望超过 15 点,你也可以投票了,呵呵... ;-)
      猜你喜欢
      • 2014-10-14
      • 1970-01-01
      • 2012-02-06
      • 1970-01-01
      • 2014-09-21
      • 2021-10-25
      • 2015-02-11
      • 2011-07-10
      • 2013-02-21
      相关资源
      最近更新 更多