创建数据集：从文本文档中提取特征 (TF-IDF)答案

【问题标题】：Create a dataset: extract features from text documents (TF-IDF)创建数据集：从文本文档中提取特征 (TF-IDF)
【发布时间】：2011-02-24 16:14:18
【问题描述】：

我必须从一些文本文件创建一个数据集，将它们写成特征向量。

类似这样的：

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个词，分数由TF-IDF之类的东西给出。

你知道一些图书馆/工具/什么吗？（java更好）

【问题讨论】：

【解决方案1】：

几天后，我找到了“完美的工具”：Word Vector Tool。 http://sourceforge.net/projects/wvtool/

【讨论】：

【解决方案2】：

mallet。包括TF-IDF、POS、分类。

【讨论】：

【解决方案3】：

当然有很多，例如http://en.wikipedia.org/wiki/Lucene

但是

我建议您从头开始编写一个基本的 IR 系统。深入了解始终是一次很棒的学习经历。

【讨论】：