哪种分类算法可用于文档分类？答案

【问题标题】：Which classification algorithm can be used for document categorization?哪种分类算法可用于文档分类？
【发布时间】：2012-08-15 10:02:21
【问题描述】：

嘿，这是我的问题，

给定一组文档，我需要将每个文档分配给预定义的类别。

我打算使用 n-gram 方法来表示每个文档的文本内容，然后在我拥有的训练数据上训练一个 SVM 分类器。
如果我错过了理解的东西，请纠正我。

现在的问题是类别应该是动态的。这意味着，我的分类器应该处理具有新类别的新训练数据。

例如，如果我训练了一个分类器将给定的文档分类为 A 类、B 类或 C 类，然后我得到了 D 类的新训练数据。我应该能够通过为“D 类”提供新的训练数据来增量训练我的分类器。

总而言之，我不想将旧的训练数据（具有 3 个类别）和新的训练数据（具有新的/未见过的类别）结合起来再次训练我的分类器。我想即时训练我的分类器

这可以用 SVM 实现吗？如果没有，你能推荐我几种分类算法吗？或任何可以帮助我的书/论文。

提前致谢。

【问题讨论】：

【解决方案1】：

Naive-Bayes 是相对较快的增量分类算法。
KNN 本质上也是增量的，而且更易于实现和理解。

这两种算法都在开源项目Weka 中实现为NaiveBayes 和IBk 用于KNN。

但是，根据个人经验 - 它们都容易受到大量非信息特征的影响（通常是文本分类的情况），因此通常使用某种特征选择来从这些算法中获得更好的性能，作为增量实施可能会有问题。

【讨论】：

【解决方案2】：

Edwin Chen 的这篇博文描述了 infinite mixture models 进行聚类。我认为这种方法支持自动确定簇的数量，但我仍然试图绕开它。

【讨论】：

【解决方案3】：

符合您的条件的算法类别称为“增量算法”。几乎所有方法都有增量版本。最容易实现的是朴素贝叶斯。

【讨论】：