【发布时间】:2011-12-15 04:54:25
【问题描述】:
我正在做一个项目,该项目需要计算 txt 文件中每个单词的出现次数。 例如,我有一个这样的文本文件:
Silver Lake 在 IPO 候选人中寻找什么 3 家被收益压垮的公司:Apple、Cirrus Logic、IBM IBM 的 Palmisano:如何成为一家拥有 100 年历史的公司
如果文件中有上面显示的 3 个句子,我想计算每个单词的出现次数。在这里,Company 和 company 应该被认为是同一个单词“company”(小写),所以单词“company”的总出现次数是 2。
是否有任何 Java 的 NLP 工具包可以区分“家庭”和“家庭”这样的两个词实际上来自同一个词“家庭”?
我会统计每个单词的出现次数以进一步进行朴素贝叶斯训练,因此获得每个单词的准确出现次数非常重要。
【问题讨论】:
-
一些有用的术语:一种告诉您家庭和家庭属于同一词素的工具称为词干。字数也称为一元词频率。将文档视为字数特征向量的模型称为 bag-of-words。
标签: java text nlp text-mining