【发布时间】:2017-01-04 22:17:57
【问题描述】:
我正在一个项目中尝试使用 Lucene 索引搜索器。
索引文档的内容包含拉丁 (ISO-8859-1) 字符,因此用户可以(也将)使用此字符集进行搜索。
据我所知,Lucene 使用 UTF-8 生成索引文件。
问题:
1) 使用 Lucene 搜索时,有什么方法可以指定字符集吗?还是我必须手动将查询转换为 UTF-8,然后运行搜索?
2) IndexSearcher.search() 方法不会忽略空格,因此我必须猜测“标记”是否正确才能显示任何有意义的结果。如果用户忘记在搜索词上添加空格,则不会显示任何结果。有什么方法可以将搜索器(或 QueryParser)配置为忽略空格?
【问题讨论】:
标签: lucene iso-8859-1