【问题标题】:Which classification algorithm can be used for document categorization?哪种分类算法可用于文档分类?
【发布时间】:2012-08-15 10:02:21
【问题描述】:

嘿,这是我的问题,

给定一组文档,我需要将每个文档分配给预定义的类别。

我打算使用 n-gram 方法来表示每个文档的文本内容,然后在我拥有的训练数据上训练一个 SVM 分类器。
如果我错过了理解的东西,请纠正我。

现在的问题是类别应该是动态的。这意味着,我的分类器应该处理具有新类别的新训练数据。

例如,如果我训练了一个分类器将给定的文档分类为 A 类、B 类或 C 类,然后我得到了 D 类的新训练数据。我应该能够通过为“D 类”提供新的训练数据来增量训练我的分类器。

总而言之,我不想将旧的训练数据(具有 3 个类别)和新的训练数据(具有新的/未见过的类别)结合起来再次训练我的分类器。我想即时训练我的分类器

这可以用 SVM 实现吗?如果没有,你能推荐我几种分类算法吗?或任何可以帮助我的书/论文。

提前致谢。

【问题讨论】:

    标签: algorithm machine-learning classification document-classification


    【解决方案1】:

    Naive-Bayes 是相对较快的增量分类算法。
    KNN 本质上也是增量的,而且更易于实现和理解。

    这两种算法都在开源项目Weka 中实现为NaiveBayesIBk 用于KNN。

    但是,根据个人经验 - 它们都容易受到大量非信息特征的影响(通常是文本分类的情况),因此通常使用某种特征选择来从这些算法中获得更好的性能,作为增量实施可能会有问题。

    【讨论】:

    • 感谢您的建议。我刚刚找到一篇关于增量 SVM 的论文(bit.ly/PyQvCR),但我仍然需要研究它......
    【解决方案2】:

    Edwin Chen 的这篇博文描述了 infinite mixture models 进行聚类。我认为这种方法支持自动确定簇的数量,但我仍然试图绕开它。

    【讨论】:

      【解决方案3】:

      符合您的条件的算法类别称为“增量算法”。几乎所有方法都有增量版本。最容易实现的是朴素贝叶斯。

      【讨论】:

        猜你喜欢
        • 2011-06-26
        • 2013-11-02
        • 2011-06-10
        • 2012-03-20
        • 2012-11-13
        • 2015-11-10
        • 2011-04-04
        • 2012-12-16
        • 2016-12-04
        相关资源
        最近更新 更多