【发布时间】:2010-02-22 10:26:03
【问题描述】:
我有一个数据库,里面有很多书。我有标题、描述、作者等字段。
我正在用 100f 的提升和 0.1f 的提升来索引标题,这两个字段都被标记化和词干化。
我正在使用单个输入字段进行搜索,该输入字段使用与 BooleanClause.Occur.SHOULD 连接并包含每个字段的通配符查询的布尔查询在所有可用字段中进行搜索。我还从查询中删除了所有“停用词”。
我遇到的问题是当我搜索不带引号的字符串时
“de wetenschap van het leven”,删除停用词后,我得到“wetenschap leven”
Title 查询变为“*wetenschap* *leven*”,description 查询相同,带有一个与 BooleanClause.Occur.SHOULD 连接的包装布尔查询。
以下书籍在数据库中
- Wetenschappelijk 登肯。恩 医学之声 biomedische wetenschappen en voor de 安德烈·莱文斯韦滕夏普。
- 德 韦滕夏普范德阿尔德。超过 een 莱文德星球
- 阿特拉斯范德 menselijke levensloop
- De wetenschap 范赫特利文。超过enheid in 生物多样性
前 4 本书中的书返回,这很好,但在此实现中,我们在 3 处截断,其余的位于阅读更多链接下方。只是提高临界值不是一种选择
对我来说,“De wetenschap van het leven. Over eenheid in biologische diversiteit”一书与查询“更多”相匹配(或者我觉得),但我无法找到正确的索引/搜索组合使这项工作。有人有想法吗?
【问题讨论】: