【发布时间】:2017-09-18 16:53:14
【问题描述】:
我有一个相当大的terms 聚合结果,它们被加载到下拉列表中以提供filter 功能。
可以说,我的下拉列表中有 4000 多种动物。我的另一个下拉列表有 4 种动物颜色。
例如,
animal --> ["dog", "cat", "rabbit", ........ , "squirrel"]
color --> ["black", "white", "grey", "brown"]
elasticseatch 中的文档如下所示:
{"animal": "dog", "color": "white"},
....
{"animal": "cat", "color": "white"},
....
{"animal": "rabbit", "color": "grey"},
....
{"animal": "squirrel", "color": "brown"}
默认情况下,我的下拉列表中的所有checkboxes 都是checked,Elasticsearch 会返回它包含的所有结果。现在,我想查看基于所选动物颜色的另一个字段animal_features 的基数结果。如果我的下拉列表中没有 checked 并且我可以运行以下查询,这实际上可以很容易地完成。当 color=black 时,查询将返回预期的基数结果。
{
"query": {
"bool": {
"must": [
{"match": { "color": "black"}}
]
}
},
"aggs": {
"unique_animal_features": {
"cardinality": {
"field": "animal_features",
"precision_threshold" : 40000
}
}
}
}
但是,我默认拥有所有的动物和颜色checked。假设我仍然想要颜色 = 黑色时的基数结果。所以就我而言,我需要继续并取消选中除黑色以外的所有颜色。所以我继续并取消选中白色、灰色和棕色。
从下面的第二个查询中,我希望 Elasticsearch 会返回相同的结果,因为我使用 must_not 查询从结果中排除了其他非黑色的颜色。
{
"query": {
"bool": {
"must_not": [
{
"match": {
"color": "white"
}
},
{
"match": {
"color": "grey"
}
},
{
"match": {
"color": "brown"
}
}
]
}
},
"aggs": {
"unique_animal_features": {
"cardinality": {
"field": "animal_features",
"precision_threshold" : 40000
}
}
}
]
}
但是,第二个查询返回的基数结果非常不准确。我需要使用第二个查询,但需要像第一个查询一样的结果,如何优化我的第二个查询来做到这一点?
注意:第一个和第二个查询之间的唯一区别是,在第一个查询的情况下,除了单一颜色之外没有选择任何内容。但是,在第二个查询的情况下,默认情况下会选择包括动物和颜色在内的所有内容,直到用户开始取消选中颜色。
【问题讨论】:
-
只有4种颜色或更多?
-
@hatim 只有 4 种颜色。