【发布时间】:2019-09-02 03:53:51
【问题描述】:
我想将二进制文件保存在 elasticsearch 中,然后根据相似度得分(基于汉明距离)返回结果查询。所以我可以检索最接近的(得分更高)。
例子:
0000111100000000000000001 0000111100000000000000000
(汉明距离为1,接近,高分)
0000111100001110000000001 0111110100000001111100000
(汉明距离为13,远,低分)
我想带上最接近的,如果足够接近,可以检测到它们几乎相同。
【问题讨论】:
-
这些“二进制文件”究竟是如何表示的?您可以按位 XOR 并计算个数。
标签: algorithm elasticsearch binary