ES的默认分词设置是standard,这个在中文分词时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些“清清的河水”,“中华儿女”,“地大物博”,“学而不思则罔”之类的莫名其妙的结果,这里我们就想把这个分词方式修改一下,于是呢,就想到了ik分词器,有两种ik_smart和ik_max_word。

        ik_smart会将“清华大学”整个分为一个词,而ik_max_word会将“清华大学”分为“清华大学”,“清华”和“大学”,按需选其中之一就可以了。

修改默认分词方法(这里修改school_index索引的默认分词为:ik_max_word):

PUT /my_index
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

PUT /my_index/
{
  "index": {
    "analysis": {
      "analyzer": {
        "content":{
          "tokenizer":"uax_url_email"
        }
      }
    }

  }
}

  

相关文章:

  • 2022-12-23
  • 2021-06-02
  • 2021-10-28
  • 2021-08-01
  • 2021-11-18
  • 2021-09-16
  • 2022-12-23
  • 2021-08-22
猜你喜欢
  • 2021-06-30
  • 2021-12-20
  • 2022-12-23
  • 2022-12-23
  • 2021-12-04
  • 2022-01-08
  • 2022-12-23
相关资源
相似解决方案