【发布时间】:2011-12-18 17:31:16
【问题描述】:
哪种产品(Mallet 或 Weka)更适合文本分类任务:
- 训练更简单
- 更好的结果
- 文档
我是这个问题的新手,所以任何 cmets 都会很棒
【问题讨论】:
哪种产品(Mallet 或 Weka)更适合文本分类任务:
我是这个问题的新手,所以任何 cmets 都会很棒
【问题讨论】:
MALLET 更易于使用,并且大部分工作都是在无形中完成的。你也不需要转换任何东西的格式,你只需给它文本文件,它就会给你返回结果。
Weka 需要将文本转换为特定格式(用于执行此操作的 Weka 脚本非常缓慢且效率低下,我建议您自己编写)。
MALLET 的问题是训练使用 GB 内存,如果您有大型训练集,可能需要数小时。
Weka 有更多文档,但其中大部分没有意义。 MALLET 的文档很少,但使用起来非常简单。
说实话,在测试了他们两个之后,我选择编写自己的分类器。
【讨论】:
我真的很喜欢 Weka vs Mallet。也许我还不够了解,但是使用 GUI 进行机器学习非常棒。您可以非常轻松地调整参数并运行不同的实验(也可以将过去实验的结果保留在您面前)。我是 Weka 的新手,所以这是 FWIW。
至于哪个更容易训练,我发现 Weka 更简单。我不知道只需将 Mallet 指向一些文本(也许它已经足够好了),你可以对你的特征空间进行什么样的控制,但我对 Mallet 的体验与 Weka 相当......编写脚本来获取输入正确的格式,但需要注意的是,我必须执行多个步骤才能在 Mallet 中使用某种序列化版本的数据。
关于您的其他问题,我现在无法真正回答它们,但我希望这个答案不会被否决,因为无论如何它都是很好的信息。
【讨论】: