【发布时间】:2011-02-24 16:14:18
【问题描述】:
我必须从一些文本文件创建一个数据集,将它们写成特征向量。
类似这样的:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
向量的每个位置代表一个词,分数由TF-IDF之类的东西给出。
你知道一些图书馆/工具/什么吗? (java更好)
【问题讨论】:
标签: java information-retrieval feature-extraction tf-idf