【发布时间】:2017-08-25 14:11:21
【问题描述】:
是否有字符串的散列函数,这样在小的编辑距离内的字符串(例如,拼写错误)会映射到相同或非常接近的散列值,而不同的字符串往往不会?
【问题讨论】:
-
神奇的谷歌词是“保持相似性散列”。有很多这样的哈希函数用于不同的目的,而且它们并不出色,所以总是需要权衡取舍。
-
@MattTimmermans LSH 不是这些(在标题和标签中)的常规名称吗?我只是不知道 LSH 的编辑距离。
-
IIRC,Locality-sensitive hashing 是指将向量空间映射到更小的维度空间,以尝试通过欧几里得或类似距离度量来保持接近度。
标签: algorithm hash edit-distance locality-sensitive-hash