【问题标题】:Working with string data and classification in Weka在 Weka 中处理字符串数据和分类
【发布时间】:2013-02-20 19:19:24
【问题描述】:

我有一个数据集,它由一对字符串和它所属的类组成。 字符串是一个句子。班级可以是“男性”或“女性”。一个例子-

'嗨!我叫杰克,男

我将其用作训练集,因此,给定一组不同的字符串,它可以区分该语句来自男性还是女性。 我正在使用 WEKA 的 stringtowordvector 将字符串转换为包含该字符串中单词数的向量。 使用结果 arff 我希望它生成一个预测算法(决策树?),我可以在未分类的数据集上使用它。 我该怎么做?我应该使用哪个分类器?在这种情况下,还有哪些其他预处理技术会有所帮助?

【问题讨论】:

    标签: machine-learning data-mining weka


    【解决方案1】:

    Weka 主页上的简单消息分类器示例(codewiki)示例可能是一个很好的起点,或者 Text Categorization Wiki

    几乎任何线性分类器都是一个很好的起点。我建议将Logistic RegressionSupport Vector Machines 作为一个很好的起点。

    【讨论】:

    • 您的逻辑回归和支持向量机链接已损坏。
    猜你喜欢
    • 2011-12-17
    • 1970-01-01
    • 1970-01-01
    • 2012-11-09
    • 2013-03-16
    • 2019-02-12
    • 1970-01-01
    • 2019-09-30
    • 1970-01-01
    相关资源
    最近更新 更多