【发布时间】:2016-09-07 09:32:41
【问题描述】:
在 LSH 中,您将 hash slices of the documents 放入存储桶中。这个想法是,落入相同存储桶的这些文档可能是相似的,因此可能是最近的邻居。
对于 40.000 个文档,存储桶的数量(几乎)是多少?
我现在是:number_of_buckets = 40.000/4,但我觉得可以减少更多。
有什么想法,请?
亲戚:How to hash vectors into buckets in Locality Sensitive Hashing (using jaccard distance)?
【问题讨论】:
-
有点不清楚您在之前的问题中实际上散列了什么:“作为列的文档和作为行的单词 [..] 每个条带都有其列散列,因此一列属于存储桶. 如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的”。无论如何,一个常见的起点是使用
sqrt(n)存储桶来存储n文档。您可以尝试将其加倍和减半并运行一些分析以查看您获得了什么样的文档分布。
标签: hash document nearest-neighbor locality-sensitive-hash bigdata