【发布时间】:2011-07-13 00:00:24
【问题描述】:
我正在尝试在 Lucene 中索引一个可能具有不同语言的 RDF 文字的字段。 到目前为止,我看到的大多数方法是:
使用单个索引,其中每个文档针对其使用的每种语言都有一个字段,或者
使用 M 个索引,M 为语料库中语言的数量。
Lucene 2.9+ 有一个称为 Payload 的功能,允许将属性附加到术语。是否有人使用这种机制来存储语言(或其他属性,如数据类型)信息?与其他两种方法相比,性能如何?显示如何完成的源代码上的任何指针都会有所帮助。谢谢。
【问题讨论】:
标签: lucene multilingual payload