【问题标题】:Create a dataset: extract features from text documents (TF-IDF)创建数据集:从文本文档中提取特征 (TF-IDF)
【发布时间】:2011-02-24 16:14:18
【问题描述】:

我必须从一些文本文件创建一个数据集,将它们写成特征向量。

类似这样的:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

向量的每个位置代表一个词,分数由TF-IDF之类的东西给出。

你知道一些图书馆/工具/什么吗? (java更好)

【问题讨论】:

    标签: java information-retrieval feature-extraction tf-idf


    【解决方案1】:

    几天后,我找到了“完美的工具”:Word Vector Tool。 http://sourceforge.net/projects/wvtool/

    【讨论】:

      【解决方案2】:

      mallet。包括TF-IDF、POS、分类。

      【讨论】:

        【解决方案3】:

        当然有很多,例如http://en.wikipedia.org/wiki/Lucene

        但是

        我建议您从头开始编写一个基本的 IR 系统。深入了解始终是一次很棒的学习经历。

        【讨论】:

        • 我知道,但我的时间有限,而且 TFIDF 看起来很容易实现
        • 我指的不仅仅是 TFIDF 算法,我指的是端到端,从文件解析、索引到搜索/排名等。
        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2021-08-09
        • 2020-09-27
        • 1970-01-01
        • 2019-04-09
        • 1970-01-01
        • 2015-05-21
        • 1970-01-01
        相关资源
        最近更新 更多