【问题标题】:Which classification algorithm to choose?选择哪种分类算法?
【发布时间】:2011-06-26 23:16:37
【问题描述】:

我想将文本文档分为四类。我还有很多已经分类的样本可以用于训练。我希望该算法能够即时学习。请提出一个适合此要求的最佳算法。

【问题讨论】:

    标签: machine-learning data-mining classification


    【解决方案1】:

    如果“即时”是指在线学习(训练和分类可以交错),我建议使用k-nearest neighbor 算法。它在 Weka 和 TiMBL 包中提供。

    感知器也可以做到这一点。

    “最佳”在这种情况下并不是一个定义明确的术语。

    【讨论】:

      【解决方案2】:

      有几种算法可以即时学习。示例:k-最近邻、朴素贝叶斯、神经网络。您可以在样本语料库上尝试这些方法的适用程度。

      【讨论】:

        【解决方案3】:

        嗯....我不得不说文档分类与你们的想法有些不同。

        通常,在文档分类中,经过预处理后,测试数据总是非常庞大,例如 O(N^2)...因此可能计算量太大。

        我想到的另一个典型分类器是判别分类器......它不需要数据集的生成模型。训练完成后,你要做的就是把你的单条输入到算法中,然后它就会被分类。

        祝你好运。例如,您可以查看 E. Alpadin 的书《机器学习简介》。

        【讨论】:

          【解决方案4】:

          由于您有未标记的数据,因此您可能希望使用一个有帮助的模型。我首先想到的是非线性 NCA:Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)

          【讨论】:

            猜你喜欢
            • 1970-01-01
            • 2014-01-11
            • 2012-08-15
            • 2014-01-11
            • 2018-01-05
            • 2011-07-31
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            相关资源
            最近更新 更多