【发布时间】:2016-02-25 17:09:01
【问题描述】:
好吧,在整天想弄明白这个问题后,我决定从社区获得一些意见。
应该提到我对 Elasticsearch 还很陌生。
我的想法是我有一个包含一些文档的 ES 索引,并且只有在没有具有相似字段内容(但不一定等于)的现有文档已被索引时,我才需要索引新文档。
我可以对多个字段执行匹配查询并获得查询的全局分数,但由于该分数不是可用最大分数的百分比,我不确定如何设置阈值以确定是否可以插入文件与否。
我显然对 ES 评分系统有点困惑。 在此先感谢您提供的所有帮助。
编辑:
作为一个基本的例子
这已被编入索引:
{
"title": "My first blog entry",
"text": "Just trying this out...",
"date": "2014/01/01"
}
这是新的,但不应该被索引,因为字段不相等但太相似:
{
"title": "My first blog entries",
"text": "Just trying it out...",
"date": "2014/01/01"
}
这是新的,应该被编入索引:
{
"title": "My second entry for this blog",
"text": "I am just trying out a few things",
"date": "2014/01/01"
}
所以它基本上是重复先前的索引并基于我所追求的字段相似性:)
【问题讨论】:
-
最好提供一些示例文档以及您希望它们如何匹配(或不匹配)。没有更多信息,很难想象你在追求什么。帮助我们帮助你;-)
-
嗨,我已经用示例更新了问题:)
标签: php symfony elasticsearch elastica