【发布时间】:2015-06-27 12:24:20
【问题描述】:
我有大量的文本数据。我的整个数据库都是 UTF-8 的文本格式
我需要在我的整个文本数据中列出最重复的短语。
例如我的愿望输出是这样的:
{
'a': 423412341,
'this': 423412341,
'is': 322472341,
'this is': 222472341,
'this is a': 122472341,
'this is a my': 5235634
}
处理和存储每个短语占用大量数据库。 例如存储在 MySQL 或 MongoDB 中。 问题是有没有更有效的数据库或算法来找到这个结果? Solr、Elasticsearch 等...
我认为每个短语中最多 10 个单词对我有好处。
【问题讨论】:
-
我建议在您的短语中包含最多字数。
标签: search text full-text-search bigdata