【问题标题】:Text Classification using MALLET使用 MALLET 进行文本分类
【发布时间】:2015-09-30 18:34:11
【问题描述】:

我是使用 Mallet 的新手。我通常使用WEKA进行分类,现在我正在尝试使用Mallet进行文本分类。在 Weka 中,有一些属性(例如单词长度或前 n 个单词出现)我们自己选择并制作 .arff 文件。

我在http://mallet.cs.umass.edu/import.php 中阅读了有关 Mallet 的输入格式的信息,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文件属于某个类?例如,一个文档属于“运动”类?

非常感谢任何输入格式文件的示例。

谢谢!

【问题讨论】:

    标签: text input attributes classification mallet


    【解决方案1】:

    -我们如何判断这个文档属于某个类?:

    每个班级可以有一个文件夹,例如: C:/语料库/Class1 C:/语料库/Class2 C:/语料库/类 每个文件夹都包含属于该类的文档。

    我们如何在输入格式中分配属性?

    如果您想了解文件导入的选项,请访问: C:/槌/箱 一旦你在那里: mallet 导入目录 --help 并且会显示导入文件的选项,例如--remove-stopwords、--gram sizes。

    导入文件的示例代码:

    bin/mallet import-dir --input C:/Corpus/* --output corpus.mallet --gram 大小 1,2 --preserve-case

    【讨论】:

    • 感谢您的回答。所以我假设Mallet的默认属性类型是unigram,其中所有单词都是属性?
    • 没错。您可以选择二元组,例如 --gram 大小为 1,2。
    • 太棒了!您的回答确实帮助我理解 Mallet 进行分类 :) 现在我已经使用 Mallet 进行研究了。
    猜你喜欢
    • 2016-11-30
    • 1970-01-01
    • 2020-07-19
    • 2011-12-18
    • 2012-03-27
    • 2014-04-30
    • 2013-07-16
    • 2016-12-27
    相关资源
    最近更新 更多