【发布时间】:2010-04-06 19:43:25
【问题描述】:
我有一个包含英语/意大利语帖子的文本文件。我想将帖子读入数据矩阵,以便每一行代表一个帖子,每列一个单词。矩阵中的单元格是每个单词在帖子中出现的次数的计数。词典应包含整个文件中的所有单词或非详尽的英语/意大利语词典。
我知道这是 NLP 常见的基本预处理步骤。而且我知道编写代码非常简单,不过我想使用一些 NLP 领域特定的工具来修剪停用词等。
有人知道可以执行此任务的工具\项目吗?
有人提到了apache lucene,不知道lucene索引能不能序列化成我需要的数据结构?
【问题讨论】:
-
被称为 Term-Document 矩阵。