选择哪种分类算法？答案

【问题标题】：Which classification algorithm to choose?选择哪种分类算法？
【发布时间】：2011-06-26 23:16:37
【问题描述】：

我想将文本文档分为四类。我还有很多已经分类的样本可以用于训练。我希望该算法能够即时学习。请提出一个适合此要求的最佳算法。

【问题讨论】：

【解决方案1】：

如果“即时”是指在线学习（训练和分类可以交错），我建议使用k-nearest neighbor 算法。它在 Weka 和 TiMBL 包中提供。

感知器也可以做到这一点。

“最佳”在这种情况下并不是一个定义明确的术语。

【讨论】：

【解决方案2】：

有几种算法可以即时学习。示例：k-最近邻、朴素贝叶斯、神经网络。您可以在样本语料库上尝试这些方法的适用程度。

【讨论】：

【解决方案3】：

嗯....我不得不说文档分类与你们的想法有些不同。

通常，在文档分类中，经过预处理后，测试数据总是非常庞大，例如 O(N^2)...因此可能计算量太大。

我想到的另一个典型分类器是判别分类器......它不需要数据集的生成模型。训练完成后，你要做的就是把你的单条输入到算法中，然后它就会被分类。

祝你好运。例如，您可以查看 E. Alpadin 的书《机器学习简介》。

【讨论】：

【解决方案4】：

由于您有未标记的数据，因此您可能希望使用一个有帮助的模型。我首先想到的是非线性 NCA：Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)。

【讨论】：