【问题标题】:How does min_doc_freq work in More Like This Querymin_doc_freq 如何在更像这个查询中工作
【发布时间】:2020-07-31 17:37:21
【问题描述】:

我有一些具有以下结构的文档:

"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Dupieux" } ]

我的 More Like This 查询如下:

"_source": [ "directors.name" ],
"query": {
  "more_like_this": {
    "fields": [ "directors.name" ],
    "like": "quentin tarantino",
    "min_term_freq": 1,
    "min_doc_freq": 9
  }
}

我理解如果我使用"min_doc_freq": 7 那么,在这个示例中,查询应该只检索一个文档"directors": [ { "name": "Quentin Dupieux" } ] 是否正确?

但是,查询只检索到 3 个文档:

"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Tarantino" } ]
"directors": [ { "name": "Quentin Dupieux" } ]

我不明白为什么.. 谁能告诉我为什么查询只检索 3 个“文档”

谢谢!

【问题讨论】:

  • 我试图复制您的查询。我正在获取所有带有“min_term_freq”:1 和 min_doc_freq :7/9 的文档。你能告诉 Quentin Tarantino 和 Quentin Dupieux 的文件数量是多少吗?您是否还可以检查您的查询是否完整和正确
  • 感谢您的评论,我有 10 个与 Quentin Tarantino 合作的文件和 1 个与 Quentin 合作的文件杜皮厄。我认为查询已完成且正确。我使用 Elasticsearch 7.6.2。

标签: elasticsearch morelikethis


【解决方案1】:

我找到了错误的解决方案,我需要为 elasticsearch 7.6.2 设置分片数量为 1,对于 elasticsearch 7.4.2,我在创建索引时将分片数量和副本数量设置为 1。默认值

"number_of_shards": 1

"number_of_replicas": 1

谢谢!

【讨论】:

    猜你喜欢
    • 2019-11-22
    • 2018-11-25
    • 2012-08-31
    • 2017-05-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多