【问题标题】:reindexing elastic search does not return all documents重新索引弹性搜索不会返回所有文档
【发布时间】:2020-08-27 20:59:55
【问题描述】:

我的弹性搜索中有大约 150 万个文档。我希望重新索引它们,以便每个索引过滤包含某些关键字的文档,以及一个 (null index) 不包含我在其他索引中指定的任何关键字的文档。我不确定为什么我的索引返回的文件比预期的少。特别是我预计大约有 120 万份文件在 null index 但它只在新索引中返回了大约 30k 个文档。非常感谢我在这里做错了什么!

这就是我如何重新索引包含多个字段中某些关键字的文档

curl --location --request POST 'http://abcdef2344:9200/_reindex' \
--header 'Content-Type: application/json' \
--data-raw '{
  "source": {
    "index": "mydocs_email_*",
    "query": {
      "bool": {
        "filter": [
          {
            "bool": {
              "should": [
                {
                  "multi_match": {
                    "fields": [
                      "content",
                      "meta.raw.Message:Raw-Header:Subject"
                    ],
                    "query": "keyword1"
                  }
                },
                {
                  "multi_match": {
                    "fields": [
                      "content",
                      "meta.raw.Message:Raw-Header:Subject"
                    ],
                    "query": "keyword2"
                  }
                }
              ]
            }
          }
        ]
      }
    }
  },
  "dest": {
    "index": "analysis_keywords"
  }
}'

然后我使用must_not 创建另一个不包含keyword1keyword2 的索引。

curl --location --request POST 'http://abcdef2344:9200/_reindex' \
--header 'Content-Type: application/json' \
--data-raw '{
  "source": {
    "index": "mydocs_email_*",
    "query": {
      "bool": {
        "filter": [
          {
            "bool": {
              "must_not": [
                {
                  "multi_match": {
                    "fields": [
                      "content",
                      "meta.raw.Message:Raw-Header:Subject"
                    ],
                    "query": "keyword1"
                  }
                },
                {
                  "multi_match": {
                    "fields": [
                      "content",
                      "meta.raw.Message:Raw-Header:Subject"
                    ],
                    "query": "keyword2"
                  }
                }
              ]
            }
          }
        ]
      }
    }
  },
  "dest": {
    "index": "analysis_null"
  }
}'

null index 返回了 29.7k 个文档。从错误消息看来,我应该期待 128 万个文件。它还说我需要增加索引中的字段数量——我在运行上面的代码后也这样做了。虽然文件的数量仍然保持不变。

{"took":53251,"timed_out":false,"total":1277428,"updated":243,"created":29755,"deleted":0,"batches":30,"version_conflicts":0,"noops":0,"retries":{"bulk":0,"search":0},"throttled_millis":0,"requests_per_second":-1.0,"throttled_until_millis":0,"failures":[{"index":"analysis_null","type":"_doc","id":"/email/.......msg","cause":{"type":"illegal_argument_exception","reason":"Limit of total fields [1000] in index [analysis_null] has been exceeded"},"status":400}]

【问题讨论】:

    标签: elasticsearch elastic-stack reindex


    【解决方案1】:

    这个错误的意思和它说的完全一样——在重新索引期间超出了字段总数的硬限制。

    重新索引之前更改该设置不能解决问题吗?

    DELETE analysis_null
    
    PUT analysis_null
    {
      "settings": {
        "index.mapping.total_fields.limit": 10000
      }
    }
    

    【讨论】:

    • 在重新索引之前更改总字段限制不是我迄今为止遇到的选项。 { "error" : { "root_cause" : [ { "type" : "index_not_found_exception", "reason" : "no such index [analysis_null]。在调整限制之前,需要先创建新索引。除非有办法在重新索引发生的同时更新字段限制?
    • 您是否尝试过上面的内容?一个简单的PUT analysis_null 调用应该没问题
    猜你喜欢
    • 1970-01-01
    • 2015-12-18
    • 2016-08-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-05-12
    相关资源
    最近更新 更多