Mahout - 将文本转换为矢量答案

【问题标题】：Mahout - converting text to vectorMahout - 将文本转换为矢量
【发布时间】：2015-02-14 12:41:35
【问题描述】：

假设我有一组训练文本文档和一组测试文本文档。两套非常大，所以使用 weka 不是一个好的选择，因为它会花费很多时间。因此，我使用 mahout - 一个可扩展的机器学习和数据挖掘框架 (http://mahout.apache.org/)。接下来，我使用 mahout 将训练文档转换为 mahout 向量（设置 ngram = 1）。这里我有一个代表训练文档的 mahout 向量，其中每个向量的大小是属性或特征的数量，该向量中的每个数字是训练文档中单词的频率（使用 tf 而不是 tf-idf）。 有谁知道如何根据我之前在 mahout 中构建的训练数据的特征或属性来转换测试文档？

【问题讨论】：

标签： machine-learning mahout

【解决方案1】：

您所指的“转换”实际上是“预测”..不是吗？鉴于您已经训练了数据 - 大概您有一个可用的分类模型。

您可以在此处使用 mahout 的命令行工具：

http://mahout.apache.org/users/basics/creating-vectors-from-text.html

【讨论】：

谢谢Javadba，但它无法回答我的问题。 “鉴于您已经训练了数据 - 大概您有一个可用的分类模型”-> 是的，但是测试数据必须与训练数据具有相同的维度（我不会将数据拆分为 9/10 的训练数据和使用 mahout 命令的 1/10 测试数据）。最后，我必须读取 mahout 文件的格式并将 weka 文件转换为 mahout 文件。它解决了我的问题，因为使用 weka，我可以将测试数据转换为与训练数据具有相同特征集合的数据