【发布时间】:2014-07-07 20:46:03
【问题描述】:
我正在尝试配置 Lucene / Solr 以正确索引来自新闻文章的单词。正如目前 Solr 3.4 WordDelimitedFilterFactory 索引的“开箱即用”一样: 她是 成为 她
但她会像“她会”一样变成她、我、她和贝壳。我绝对不希望它与“shell”匹配。这不是本意。
目前我的文本通过 WhitespaceTokenizerFactory,然后是 StopFilterFactory,然后 WodDelimiterFilterFactory 设置为: generateWordParts="1" generateNumberParts="1" 连环词=“1” catenateNumbers="1" catenateAll="0" splitOnCaseChange="0" splitOnNumerics="0" 保留原始=“1” types="specialtypes.txt"
我试着说撇号被认为是 specialtypes.txt 中的一个字母字符,方法是:
' => ALPHA
但后来她变成了一个词,小马和公司也是如此,这不是我想要的。
有什么想法吗?
【问题讨论】:
-
您对这种情况有何期待:Scarlett O'Hara?
-
我希望虫子变成虫子,阿诺德变成阿诺德(英语所有格),但我希望她变成她而不是壳
-
对不起@notdang 我看错了。我希望 Scarlet O'Hara 成为完美世界中的 Ohara