【问题标题】:Solr indexing with space and without space for same fieldSolr索引有空格和相同字段没有空格
【发布时间】:2016-02-17 08:58:19
【问题描述】:

伙计们,

我们有一个要求,我们希望基于 solr 索引数据,无论是否有空格

由于应用程序已经投入生产,我们不想在 schema.xml 中添加新字段

例如,如果单词类似于“卓越学院”

我们希望像“Instititue of Excellence”那样进行索引,然后通过删除中间的所有空格来使用“InstititueofExcellence”进行索引。

有没有简单的方法来实现这一点? (如上所述,我们不想创建多个字段)

【问题讨论】:

  • 您是否尝试过使用 ShingleFilter 并将 outputunigrams 设置为 true 和一个空的分隔字符?这会将“Instituteof”、“InstituteofExcellence”等索引为单独的标记。
  • 我们已经在使用 ShingleFilter 来创建多词标记,例如“研究所”“卓越”等。我们可以在 shingle 工厂中提供多个选项来索引有空格和没有空格。(我认为它是不可能)

标签: solr


【解决方案1】:

在编制索引时,您需要停止 StandardTokenization。 或者 可能您需要考虑编写新的过滤器类(合并单词)并将其包含在 solrconfig 文件中的类型定义。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-01-03
    • 2014-02-07
    • 1970-01-01
    相关资源
    最近更新 更多