【问题标题】:mahout classification text input vectorizationmahout 分类 文本 输入 矢量化
【发布时间】:2012-08-28 22:36:31
【问题描述】:

我正在尝试使用 mahout 构建分类器。模型建立后。 我必须将目标文档“输入”给模型并获得分类结果。

我检查了 mahout 源代码中的测试用例,它使用具有固定数量字段的 DenseVector。 但是,我使用 mahout 对文本文档进行分类,输入是一些字符串(或包含字符串的数组)。如何将其转换为有效的“矢量”实例。

我尝试了 StaticWordEncoder 和 RandomAccessSparseVector,但结果不正确。无法弄清楚为什么。有点绝望。

【问题讨论】:

  • “TestClassifierDriver”产生了正确的结果,证明训练的模型应该没问题。
  • 最好去mahout用户列表。
  • 已解决。我必须将文档转换为 vecotr 实例。这个过程有点脏,但它工作正常。谢谢大家!

标签: mahout


【解决方案1】:

您必须将文档解析为单词并从中填充向量。

我建议在尝试之前阅读Mahout In Action 之类的内容以了解更多背景信息。

【讨论】:

    猜你喜欢
    • 2013-03-10
    • 2012-08-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-02-26
    • 1970-01-01
    • 2017-06-21
    相关资源
    最近更新 更多