【问题标题】:Fetching stem words from elasticsearch api从 elasticsearch api 获取词干
【发布时间】:2013-10-24 05:12:38
【问题描述】:

我正在做一个项目,我正在使用弹性搜索来分析推文。我正在列出他们最常发推文的热门话题(人们的兴趣)。

由于大部分时间推文都有词,需要先进行词干才能用作列表(兴趣)名称。

Elasticsearch 擅长从它处理停用词删除的数据库中进行搜索;词干;等等,但我想知道是否有一种方法可以从弹性搜索 api 的推文中获取词干。

我认为 apache lucene 可以做到这一点,但我想坚持使用 elasticsearch。

谁能建议我在弹性搜索中实现这一目标的方法。

提前致谢!!!

  • 编辑:-

假设我们有 3 个单词,例如。玩,玩,玩等等。

所有这些词在词干后都是相同的(播放),所以我想在这里增加仅播放(词干)的计数,而不是 3 个非词干词的单个计数。

希望这个例子能让我的目的更清楚。

【问题讨论】:

  • 茎不太好看,你确定要拿回来吗?
  • @javanna Yaa 我想要他们很重要的词干我已经用一个例子更新了这个问题,请检查。
  • 对不起,我不明白,你想增加什么?当您在索引时应用词干提取时,这不是会发生什么吗?

标签: lucene elasticsearch stemming


【解决方案1】:

【讨论】:

    【解决方案2】:

    使用雪球分析器可以做到这一点。

    https://gist.github.com/jiren/7263138

    【讨论】:

      猜你喜欢
      • 2018-05-23
      • 2015-11-20
      • 2013-06-09
      • 1970-01-01
      • 2023-03-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-09-10
      相关资源
      最近更新 更多