【发布时间】:2015-04-08 22:13:02
【问题描述】:
我们为文档实现了一个复杂的分词器(使用语义分析等)。我们想将我们为每个文档生成的令牌插入到 solr 中。
这就是我们想要的。定义一个 solr 自定义标记器,以便它可以接受我们生成的标记,然后将它们传递给过滤器。但是,solr 自定义分词器是基于 char 及其偏移量的,为了我们的目的修改它是非常复杂的。
有没有办法做到这一点?我正在使用 solr 5.0。
【问题讨论】:
我们为文档实现了一个复杂的分词器(使用语义分析等)。我们想将我们为每个文档生成的令牌插入到 solr 中。
这就是我们想要的。定义一个 solr 自定义标记器,以便它可以接受我们生成的标记,然后将它们传递给过滤器。但是,solr 自定义分词器是基于 char 及其偏移量的,为了我们的目的修改它是非常复杂的。
有没有办法做到这一点?我正在使用 solr 5.0。
【问题讨论】:
我想你可以在 UpdateProcessors 中编写你的预处理,然后将内容添加到 solr 文档中,并将请求传递给 tokenizer 和 solr 过滤器链。
【讨论】: