【发布时间】:2015-09-30 18:34:11
【问题描述】:
我是使用 Mallet 的新手。我通常使用WEKA进行分类,现在我正在尝试使用Mallet进行文本分类。在 Weka 中,有一些属性(例如单词长度或前 n 个单词出现)我们自己选择并制作 .arff 文件。
我在http://mallet.cs.umass.edu/import.php 中阅读了有关 Mallet 的输入格式的信息,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文件属于某个类?例如,一个文档属于“运动”类?
非常感谢任何输入格式文件的示例。
谢谢!
【问题讨论】:
标签: text input attributes classification mallet