【发布时间】:2011-09-29 16:12:24
【问题描述】:
此处定义的二进制字符串是固定大小的位“数组”。我称它们为字符串,因为它们没有顺序(将它们排序/索引为数字没有意义),每一位都独立于其他位。每个这样的字符串都是 N 位长,N 以百计。
我需要存储这些字符串,并使用汉明距离作为距离度量,为最近的邻居提供一个新的二进制字符串查询。
有专门的数据结构(metric-trees)用于基于度量的搜索(VP-trees、cover-trees、M-trees),但我需要使用常规数据库(在我的例子中是 MongoDB)。
在执行一对一的汉明距离匹配之前,是否有一些可以应用于二进制字符串的索引函数可以帮助数据库仅访问记录的子集? 或者,如何在标准数据库上实现这种基于汉明的搜索?
【问题讨论】:
-
“我称它们为字符串,因为它们没有顺序” - 字符串有顺序 - 特别是字典顺序。
-
当然,但通常位序列被称为“数字”,或者确切地说是整数,它们确实具有自然顺序。
标签: database algorithm indexing binary hamming-distance