【问题标题】:Text Categorization with Weka Issue带有 Weka 问题的文本分类
【发布时间】:2015-01-26 07:15:30
【问题描述】:

我是文本分类的新手,我想用 WEKA 来实现它。我是否必须像下面的 ARFF 文件那样构建一个有监督的训练集?我必须手动做对吗? 在这之后,我该怎么办?使用朴素贝叶斯分类器预测测试集的类别?

@relation test
@attribute text String
@attribute politics {yes,no}
@attribute religion {yes,no}
@attribute another_category {yes,no}

@data
"this is a text about politics",yes,no,no
"this text is about religion",no,yes,no
"this text mixes everything",yes,yes,yes

【问题讨论】:

    标签: text weka categorization


    【解决方案1】:

    加载 ARFF 后,您可以申请 StringToWordVector 来构建您的单词列表。从那里,您可以使用分类器(例如朴素贝叶斯)来预测您的类(您可能需要过滤其他属性以确保它们也不会用作分类器的输入)。

    希望这会有所帮助!

    【讨论】:

    • 好的,谢谢我做到了,但是我如何使用分类器来预测未标记的文本?它告诉我训练集和测试集必须具有相同的属性(但我仅为训练集手动标记了文本)
    • 训练集和测试集应该包含相同的属性。请确保它们都已定义并且错误应该消失(您是否分别构建了训练和测试数据?)
    • 谢谢!!我尝试单独构建它,但出现此错误stackoverflow.com/questions/27425952/…
    猜你喜欢
    • 2015-02-27
    • 2021-12-08
    • 2012-03-22
    • 2012-07-27
    • 2016-03-01
    • 2012-05-10
    • 1970-01-01
    • 2019-09-27
    • 2012-03-27
    相关资源
    最近更新 更多