【问题标题】:Mahout - converting text to vectorMahout - 将文本转换为矢量
【发布时间】:2015-02-14 12:41:35
【问题描述】:

假设我有一组训练文本文档和一组测试文本文档。两套非常大,所以使用 weka 不是一个好的选择,因为它会花费很多时间。因此,我使用 mahout - 一个可扩展的机器学习和数据挖掘框架 (http://mahout.apache.org/)。 接下来,我使用 mahout 将训练文档转换为 mahout 向量(设置 ngram = 1)。这里我有一个代表训练文档的 mahout 向量,其中每个向量的大小是属性或特征的数量,该向量中的每个数字是训练文档中单词的频率(使用 tf 而不是 tf-idf)。 有谁知道如何根据我之前在 mahout 中构建的训练数据的特征或属性来转换测试文档

【问题讨论】:

    标签: machine-learning mahout


    【解决方案1】:

    您所指的“转换”实际上是“预测”..不是吗?鉴于您已经训练了数据 - 大概您有一个可用的分类模型。

    您可以在此处使用 mahout 的命令行工具:

    http://mahout.apache.org/users/basics/creating-vectors-from-text.html

    【讨论】:

    • 谢谢Javadba,但它无法回答我的问题。 “鉴于您已经训练了数据 - 大概您有一个可用的分类模型”-> 是的,但是测试数据必须与训练数据具有相同的维度(我不会将数据拆分为 9/10 的训练数据和使用 mahout 命令的 1/10 测试数据)。最后,我必须读取 mahout 文件的格式并将 weka 文件转换为 mahout 文件。它解决了我的问题,因为使用 weka,我可以将测试数据转换为与训练数据具有相同特征集合的数据
    猜你喜欢
    • 2019-01-01
    • 2012-08-07
    • 2013-06-07
    • 2023-03-03
    • 2012-08-28
    • 1970-01-01
    • 2013-03-10
    • 2013-03-06
    • 1970-01-01
    相关资源
    最近更新 更多