【发布时间】:2014-02-10 16:53:42
【问题描述】:
我正在使用 Lucene 为 Java 应用程序中的一些英文文本编制索引,我需要使用 Lucene 4_1_0 对它们进行词形还原。我发现了词干(PorterStemFilter 和 SnowballFilter),但这还不够。
经过词形还原后,我想使用同义词库进行查询扩展,Lucene 是否也包含同义词库?
如果不可能,我将改用 StanfordCoreNLP 和 WordNet。
您认为词形还原会影响使用 Lucene 库的搜索吗?
谢谢
【问题讨论】:
-
词形还原应该可以提高准确性,而不会丢失与词干相关的信息(这可以将不同的形态形式混为一谈)。预计使用 Wordnet 使用第二步扩展引理会降低准确性并增加召回率。如果您可以在从 word-net(使用 word2vec)或其他语义相似性算法中天真地夸大同义词之前进行词义消歧,则可以缓解准确性问题