【发布时间】:2017-04-04 19:22:05
【问题描述】:
我有一个包含大约 300,000 个姓名和地址的数据库。有很多名字的拼写略有不同,但地址相同。 我一直在尝试将这些名称组合在一起。 这是我的数据示例。
POST /_bulk
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SREE SAI MAHILA PODUPU SANGHAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SREE ANJANEYA MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SREE BANGARAMMA MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SREE SAI MAHILA PODUPU SANGHAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI SAI MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI BANGARAMMA MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI ANJANEYA MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI RAMA MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI PYDITHALLAMMA MAHIALA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI RAMA MAHILA PODUPU SANGHAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI PYDIMAMBA MAHILA PODUPU SANGAM KANNAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
{ "index": { "_index": "test", "_type": "test" }}
{ "name":"SRI PYDITHALAMMA MAHILA PODUPU SANGAM", "address":"KSR PURAM", "city":"VIZIANAGARAM" }
当我尝试模糊匹配名称时,我的匹配分数非常低。 这是我正在使用的查询示例:
GET test/_search
{
"query": {
"bool": {
"must": [
{
"match": {
"name": {
"query": "SREE BANGARAMMA MAHILA PODUPU SANGAM",
"fuzziness": 2,
"operator": "and"
}
}
}
]
}
}
}
当我查询这个小样本集时,对于 SREE BANGARAMMA MAHILA PODUPU SANGAM,我得到一个 max_score 的 1.1982819 和模糊匹配的文档:SRI BANGARAMMA MAHILA PODUPU SANGAM 有一个 score 的 0.2869133。这表示23% 匹配。他们的第一个词略有不同:SRI vs SREE。
SRI 和 SREE 在我的数据集中出现了很多。这些可以等同于诸如Sir 之类的标题。查询的最后一部分,MAHILA PODUPU SANGAM 在我的数据集中也重复了很多次。字符串中唯一的唯一实体是BANGARAMMA。
词频/逆文档频率会是结果偏斜的原因吗?
当我查询这个小样本集时,我确实得到了我想要的结果。 但是,当我在我的 300,000 个主要数据集上运行相同的查询时,我只能得到与文档 100% 匹配的结果,并且没有显示模糊匹配。
我尝试过使用boost,但这似乎也没有产生我想要的结果。
我想知道这个问题是否是因为模糊匹配分数低。如果模糊匹配在样本集中仅 12 个数据点的得分如此之低,那么与 300,000 相比,它的得分可能要低得多。我想知道在查询主数据集时如何显示模糊匹配。坦率地说,我不知道问题出在哪里。有人可以指出我正确的方向吗?
样本集的结果如下所示:
"hits": {
"total": 2,
"max_score": 1.1982819,
"hits": [
{
"_index": "test",
"_type": "test",
"_id": "AViGh5xU276qVT8pqAHz",
"_score": 1.1982819,
"_source": {
"name": "SREE BANGARAMMA MAHILA PODUPU SANGAM",
"address": "KSR PURAM",
"city": "VIZIANAGARAM"
}
},
{
"_index": "test",
"_type": "test",
"_id": "AViGh5xU276qVT8pqAH2",
"_score": 0.2869133,
"_source": {
"name": "SRI BANGARAMMA MAHILA PODUPU SANGAM",
"address": "KSR PURAM",
"city": "VIZIANAGARAM"
}
}
]
}
【问题讨论】:
-
你确定没有结果吗?还是没有显示?您的查询既没有大小也没有建议的页面,然后默认为一个值。附带说明:你 23% 匹配的方程式并不是真正可以指望的东西。您只能看到查询集之间的差异。但是你不应该以任何方式使用百分比。
-
大小默认为10。但是,只有两个文档与上面的查询匹配。一个是查询本身中的文档,它与自身具有 100% 的匹配。另一个是模糊匹配检索的。当我查询上面给出的样本集时,模糊匹配只检索另一个文档。当我在 300,000 个数据点中搜索它时,它不会检索到相同的文档。它只是没有显示。它只匹配自身并返回一个结果。
标签: elasticsearch fuzzy-search