【问题标题】:document length in lucene 4.0lucene 4.0 中的文档长度
【发布时间】:2013-12-16 19:36:56
【问题描述】:

我已经阅读了 lucene 4.0 的文档,现在这个库存储了一些统计数据,以便计算不同的评分模型,其中之一是 bm25。除了获取文档之外,还有其他方法可以获取它的长度吗?

【问题讨论】:

  • 文档的长度是多少?字节/代码点/字段的数量?
  • 它是多个术语,与用于计算 BM25 的长度相同,我知道这个统计数据存在于 Lucene 4 中,否则无法计算 bm25,但我不知道如何去拿它?

标签: lucene


【解决方案1】:

您可以将 FieldInvertState 中的任何内容存储到“规范”中,它也不必是 8 位浮点数。

默认是长度的有损存储,如果您想要实际的确切长度,也许您选择为每个文档使用较短的(16 位)或其他东西。

参见 Similarity.computeNorm

【讨论】:

  • 你能给我一个关于如何检索文档长度的例子吗?我不太明白你的回复..更具体一点肯定对我有帮助。 “见 Similarity.computeNorm”,看看在哪里?我正在使用 Lucene 4.0 版
  • 我应该在索引时计算这个范数并将它作为一个字段存储在索引中,还是我可以在不存储任何内容的情况下检索长度?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-10-20
相关资源
最近更新 更多