【发布时间】:2013-10-24 05:12:38
【问题描述】:
我正在做一个项目,我正在使用弹性搜索来分析推文。我正在列出他们最常发推文的热门话题(人们的兴趣)。
由于大部分时间推文都有词,需要先进行词干才能用作列表(兴趣)名称。
Elasticsearch 擅长从它处理停用词删除的数据库中进行搜索;词干;等等,但我想知道是否有一种方法可以从弹性搜索 api 的推文中获取词干。
我认为 apache lucene 可以做到这一点,但我想坚持使用 elasticsearch。
谁能建议我在弹性搜索中实现这一目标的方法。
提前致谢!!!
- 编辑:-
假设我们有 3 个单词,例如。玩,玩,玩等等。
所有这些词在词干后都是相同的(播放),所以我想在这里增加仅播放(词干)的计数,而不是 3 个非词干词的单个计数。
希望这个例子能让我的目的更清楚。
【问题讨论】:
-
茎不太好看,你确定要拿回来吗?
-
@javanna Yaa 我想要他们很重要的词干我已经用一个例子更新了这个问题,请检查。
-
对不起,我不明白,你想增加什么?当您在索引时应用词干提取时,这不是会发生什么吗?
标签: lucene elasticsearch stemming