【问题标题】:How to get analyzed word count by Elasticsearch?如何通过 Elasticsearch 获得分析的字数?
【发布时间】:2016-03-16 18:21:38
【问题描述】:

我想统计分析的每个令牌。

首先,我尝试了以下代码:

映射

{
  "docs": {
    "mappings": {
      "doc": {
        "dynamic": "false",
        "properties": {
          "text": {
            "type": "string",
            "analyzer": "kuromoji"
          }
        }
      }
    }
  }
}

查询

{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "word-count": {
      "terms": {
        "field": "text",
        "size": "1000"
      }
    }
  },
  "size": 0
}

插入数据后查询索引,结果如下:

{
  "took": 41
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 10000,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "word-count": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 36634,
      "buckets": [
        {
          "key": "はい",
          "doc_count": 4734
        },
        {
          "key": "いただく",
          "doc_count": 2440
        },
        ...
      ]
    }
  }
}

不幸的是,术语聚合仅提供一个 doc_count。这不是字数。因此,我认为使用_index['text']['TERM'].df()_index['text']['TERM'].ttf() 来获得近似字数的方法。

也许大概的字数是下面的等式:

WordCount = doc_count['TERM'] / _index['text']['TERM'].df() * _index['text']['TERM'].ttf()

'TERM' 是存储桶中的关键。我尝试编写脚本化的度量聚合,但我不知道如何获取桶中的键。

{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "doc-count": {
      "terms": {
        "field": "text",
        "size": "1000"
      }
    },
    "aggs": {
      "word-count": {
        "scripted_metric": {
           // ???
        }
      }
    }
  },
  "size": 0
}

如何获取存储桶中的密钥? 如果不可能,如何获得分析的字数?

【问题讨论】:

    标签: elasticsearch kuromoji


    【解决方案1】:

    您可以尝试使用token count 数据类型。只需将该类型的子字段添加到您的 text 字段:

    {
      "docs": {
        "mappings": {
          "doc": {
            "dynamic": "false",
            "properties": {
              "text": {
                "type": "string",
                "analyzer": "kuromoji"
              }, 
              "fields": {
                "nb_tokens": {
                  "type": "token_count",
                  "analyzer": "kuromoji"
                }
              }
            }
          }
        }
      }
    }
    

    然后你可以在你的聚合中使用text.nb_tokens

    【讨论】:

    • 谢谢!我尝试了令牌计数,但它不适合我的情况。令牌计数计算每个文档的令牌,但我想在整个文档中计算相同的令牌。例如,文本“だからですね”计为 3 个标记。但我想得到“だから”、“です”和“ね”每个 1 个标记,并在整个文档中聚合标记以获得每个标记计数。
    【解决方案2】:

    你可以试试dynamic_scripting,虽然这会影响性能..

    {
    "query": {
    "match_all": {}
    },
    "aggs": {
    "word-count": {
      "terms": {
        "script": "_source.text",
        "size": "1000"
        }
      }
     },
    "size": 0
    }
    

    【讨论】:

    • 谢谢。我试过你的代码,但它返回“未分析”的短语计数。我想要一个经过分析的令牌计数。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2016-04-09
    • 1970-01-01
    • 2011-01-17
    • 1970-01-01
    • 2013-06-27
    • 1970-01-01
    • 2016-02-11
    相关资源
    最近更新 更多