【发布时间】:2015-04-20 23:24:46
【问题描述】:
我要问的可能有一个名字,它与贝叶斯统计有关。
我有一个街道地址数据库,并且我正在使用 Lucene 来匹配用户输入的地址(如果您需要类比,请假装我为 Google 地图工作)。
鉴于“West North Avenue”和“West North Shore Avenue”都是有效的街道名称,在搜索“1000”时,如何让 Lucene 的“2000 West North Avenue”得分高于“1000 West North Shore Avenue” ^0.001 西北大道”?
1000^0.001 的意思是,应该使用该号码来打破平局,但是匹配街道名称比匹配正确的号码与错误的街道更重要。
不幸的是,在这个例子中,1000^0.001 导致错误的匹配(北岸)领先于正确的匹配。
什么评分算法可以让 Lucene 向下调整分数,因为没有在搜索中指定索引词,稀有词比常见词更重要?
【问题讨论】:
标签: lucene