【问题标题】:Querying Apache Solr based on score values根据分值查询 Apache Solr
【发布时间】:2014-05-11 22:11:03
【问题描述】:

我正在处理图像检索任务。我有一个维基百科图像数据集,其文本描述在 xml 文件中(每张图像 1 个 xml 文件)。我已经在 Solr 中索引了这些 xml。现在在检索这些时,我想为分数值保持一些阈值,这样分数较低的文档就不会出现在结果中(因为它们并不重要)。例如,我想检索相似度得分大于或等于 2.0 的所有文档。我已经尝试过像 score:[2.0 TO *] 这样的范围查询,但不能让它工作。有谁知道我该怎么做?

【问题讨论】:

  • 什么是高级问题,你想通过分数来限制你的文档?
  • @Mysterion:我已经编辑了我的问题。请看一看。
  • 谢谢,现在更正确了。让我写一个答案

标签: apache solr lucene


【解决方案1】:

想要这样做的动机是什么?我问的原因是
分数是 Lucene 根据您的索引确定的相对值
统计数据。它仅在将
特定查询的结果与索引特定实例进行比较时才有意义。换句话说,
在 b/c 上过滤没有用,无法知道 a
好的截止值。

http://lucene.472066.n3.nabble.com/score-filter-td493438.html

另外,看看这里 - http://wiki.apache.org/lucene-java/ScoresAsPercentages

因此,一般来说,将某个值截断是不好的,因为您永远不会知道哪个阈值是最好的。在好的查询中,它可能是 score=2,在不好的查询中 score=0.5,等等。 这两个链接应该解释你为什么不想这样做。

附:如果你还想看这里 - https://stackoverflow.com/a/15765203/2663985

附言我建议您修复您的搜索查询,以便它们能够以更高的精度更好地搜索 (http://en.wikipedia.org/wiki/Precision_and_recall)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-10-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多