【问题标题】:Synonyms in Solr two-waysSolr 中的同义词双向
【发布时间】:2016-04-02 11:05:07
【问题描述】:

我希望 Solr 4 以两种方式返回给定同义词列表的同义词。

索引内容

Nice villa front of the sea
Looking for condo around 2 billions $
Superb house with 3 bedrooms
Flat for sale

synonyms.txt

#Equivalent synonyms may be separated with commas and give
#no explicit mapping.  In this case the mapping behavior will
#be taken from the expand parameter in the schema.  This allows
#the same synonym file to be used in different synonym handling strategies.

villa, house, home, condo, appartement, residence, flat 

schema.xml

<analyzer type="index">
  <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.EnglishPossessiveFilterFactory"/>
  <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="false"/>
  <filter class="solr.LowerCaseFilterFactory"/>
  <filter class="solr.PorterStemFilterFactory"/>
</analyzer>

<analyzer type="query">
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.LowerCaseFilterFactory"/>
  <filter class="solr.EnglishPossessiveFilterFactory"/>
  <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="true"/>
  <filter class="solr.PorterStemFilterFactory"/>
</analyzer>

其实:

搜索“别墅”返回所有结果,但如果我在 Synonyms.txt 中搜索任何其他单词,除了相应的句子之外,我什么也得不到。

即平回报:

Flat for sale

即房屋回报:

Superb house with 3 bedrooms

我希望所有同义词(公寓、房子、公寓等)都返回与“别墅”关键字相同的结果。

【问题讨论】:

  • 同义词过滤器应该在分词器之后 - 尝试移动它,看看是否有帮助(因为在分词发生之前您不会有一个由单独的令牌组成的流)。

标签: solr synonym


【解决方案1】:

您的分析仪配置存在许多问题。

  • “同义词过滤器应该在标记器之后”正如 MatsLindh 指出的那样
  • LowerCaseFilter 应该在 SynonymFilter 之前。否则,在您的示例中, Flat 将被忽略,因为它不是全部小写。
  • PhoneticFilter 应该将 inject 设置为 true,因为您现在只对语音标记而不是原始标记进行词干处理。

试试这个配置:

<analyzer type="index">
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.LowerCaseFilterFactory"/>
  <filter class="solr.EnglishPossessiveFilterFactory"/>
  <filter class="solr.SynonymFilterFactory"
          synonyms="synonyms.txt" ignoreCase="true" expand="true" />
  <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="true"/>
  <filter class="solr.PorterStemFilterFactory"/>
</analyzer>

【讨论】:

  • 实际上 SynonymFilter 可能仍然适用于非小写,因为您有 ignoreCase="true",但最好将其放在 LowercaseFilter 之后。
  • 好的,我应该在我的查询分析器中放什么?其实我有:
  • 我首先将准确的查询配置作为索引时间。在多词同义词的情况下,您可以从查询中完全删除 SynonymFilter,但我暂时保持不变。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-04-04
  • 2023-03-27
  • 1970-01-01
  • 2012-05-29
  • 1970-01-01
相关资源
最近更新 更多