【发布时间】:2011-06-26 23:16:37
【问题描述】:
我想将文本文档分为四类。我还有很多已经分类的样本可以用于训练。我希望该算法能够即时学习。请提出一个适合此要求的最佳算法。
【问题讨论】:
标签: machine-learning data-mining classification
我想将文本文档分为四类。我还有很多已经分类的样本可以用于训练。我希望该算法能够即时学习。请提出一个适合此要求的最佳算法。
【问题讨论】:
标签: machine-learning data-mining classification
如果“即时”是指在线学习(训练和分类可以交错),我建议使用k-nearest neighbor 算法。它在 Weka 和 TiMBL 包中提供。
感知器也可以做到这一点。
“最佳”在这种情况下并不是一个定义明确的术语。
【讨论】:
有几种算法可以即时学习。示例:k-最近邻、朴素贝叶斯、神经网络。您可以在样本语料库上尝试这些方法的适用程度。
【讨论】:
嗯....我不得不说文档分类与你们的想法有些不同。
通常,在文档分类中,经过预处理后,测试数据总是非常庞大,例如 O(N^2)...因此可能计算量太大。
我想到的另一个典型分类器是判别分类器......它不需要数据集的生成模型。训练完成后,你要做的就是把你的单条输入到算法中,然后它就会被分类。
祝你好运。例如,您可以查看 E. Alpadin 的书《机器学习简介》。
【讨论】:
由于您有未标记的数据,因此您可能希望使用一个有帮助的模型。我首先想到的是非线性 NCA:Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)。
【讨论】: