【问题标题】:Bag of words Classification词袋分类
【发布时间】:2011-02-20 17:22:42
【问题描述】:

我需要找到训练单词及其分类的单词。简单的分类如。体育娱乐和政治之类的。

在哪里可以找到单词及其分类。我知道很多大学都做过词袋分类。是否有任何训练示例库?

【问题讨论】:

  • 我查看了您的其他一些问题“连续添加 char 以获得字典中最长的单词”,并建议查看名为“三元搜索树”的结构。您可以使用这种结构实现许多有用的算法来搜索单词列表和拼写检查。
  • 感谢您的评论。不幸的是,该线程已关闭,人们认为这是某种任务或其他东西。

标签: machine-learning classification


【解决方案1】:

您可以使用20个新闻组数据http://people.csail.mit.edu/jrennie/20Newsgroups以查找每个主题的单词。在数据上运行Support Vector Machine,它将为每个类提供单词的重量。您可以使用前20个或50个单词。数据集有20个课程,如宗教,政治,运动等。希望它为您提供帮助。

【讨论】:

    【解决方案2】:

    这不是您正在寻找的内容,但您可能会发现 http://labs.google.com/sets 很有趣。
    你可以输入一堆单词,它会输出一个相关单词列表,你可以递归地把它扔回第一页以获得更多相关单词。..

    或者,下载大量维基百科文章(您已经知道每个页面的类别 [http://en.wikipedia.org/wiki/Special:Categories])并编写一个简单的脚本来从一个类别的文章中挑选频率高但频率非常低的单词其他类别的文​​章

    【讨论】:

      【解决方案3】:

      我不知道这样的单词列表,但可以建议使用维基百科和维基分类的副本。您可以解析 Wikipedia 的 XML 版本(我已经这样做了)并收集来自不同主题的单词。

      【讨论】:

        猜你喜欢
        • 2018-11-07
        • 2014-09-28
        • 2012-12-02
        • 1970-01-01
        • 2019-02-28
        • 2018-02-09
        • 1970-01-01
        • 2016-02-16
        • 2016-08-28
        相关资源
        最近更新 更多