【发布时间】:2015-02-14 12:41:35
【问题描述】:
假设我有一组训练文本文档和一组测试文本文档。两套非常大,所以使用 weka 不是一个好的选择,因为它会花费很多时间。因此,我使用 mahout - 一个可扩展的机器学习和数据挖掘框架 (http://mahout.apache.org/)。 接下来,我使用 mahout 将训练文档转换为 mahout 向量(设置 ngram = 1)。这里我有一个代表训练文档的 mahout 向量,其中每个向量的大小是属性或特征的数量,该向量中的每个数字是训练文档中单词的频率(使用 tf 而不是 tf-idf)。 有谁知道如何根据我之前在 mahout 中构建的训练数据的特征或属性来转换测试文档?
【问题讨论】: