使用 MALLET 进行文本分类答案

【问题标题】：Text Classification using MALLET使用 MALLET 进行文本分类
【发布时间】：2015-09-30 18:34:11
【问题描述】：

我是使用 Mallet 的新手。我通常使用WEKA进行分类，现在我正在尝试使用Mallet进行文本分类。在 Weka 中，有一些属性（例如单词长度或前 n 个单词出现）我们自己选择并制作 .arff 文件。

我在http://mallet.cs.umass.edu/import.php 中阅读了有关 Mallet 的输入格式的信息，但我仍然感到困惑。我们如何在输入格式中分配属性？我们如何判断这个文件属于某个类？例如，一个文档属于“运动”类？

非常感谢任何输入格式文件的示例。

谢谢！

【问题讨论】：

【解决方案1】：

-我们如何判断这个文档属于某个类？：

每个班级可以有一个文件夹，例如： C:/语料库/Class1 C:/语料库/Class2 C:/语料库/类每个文件夹都包含属于该类的文档。

我们如何在输入格式中分配属性？

如果您想了解文件导入的选项，请访问： C:/槌/箱一旦你在那里： mallet 导入目录 --help 并且会显示导入文件的选项，例如--remove-stopwords、--gram sizes。

导入文件的示例代码：

bin/mallet import-dir --input C:/Corpus/* --output corpus.mallet --gram 大小 1,2 --preserve-case

【讨论】：