【问题标题】:How to calculate hamming distance between two binaries on elasticsearch如何在elasticsearch上计算两个二进制文件之间的汉明距离
【发布时间】:2019-09-02 03:53:51
【问题描述】:

我想将二进制文件保存在 elasticsearch 中,然后根据相似度得分(基于汉明距离)返回结果查询。所以我可以检索最接近的(得分更高)。

例子:

0000111100000000000000001 0000111100000000000000000

(汉明距离为1,接近,高分)

0000111100001110000000001 0111110100000001111100000

(汉明距离为13,远,低分)

我想带上最接近的,如果足够接近,可以检测到它们几乎相同。

【问题讨论】:

  • 这些“二进制文件”究竟是如何表示的?您可以按位 XOR 并计算个数。

标签: algorithm elasticsearch binary


【解决方案1】:

您可能想看看 FENSHSES(快速精确邻居 Search in Hamming Space on Elasticsearch) 最近这篇论文提出的方法:

Mu, C、Zhao, J.、Yang, G.、Yang, B. 和 Yan, Z.,2019 年 10 月。在全文搜索引擎的汉明空间中快速准确的最近邻搜索。在相似性搜索和应用国际会议上(第 49-56 页)。查姆·斯普林格。

在 Elasticsearch 上的 Hamming 空间中进行最近邻搜索似乎是最先进的。

【讨论】:

  • 虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改,仅链接答案可能会失效。 - From Review
  • @stats0007 这不是链接,而是已发表的会议论文的引用,但我会在答案中添加更多内容。
猜你喜欢
  • 1970-01-01
  • 2015-12-20
  • 2020-12-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-04-24
  • 1970-01-01
  • 2021-04-18
相关资源
最近更新 更多