【发布时间】:2011-04-29 15:40:32
【问题描述】:
我想使用 LSH 构建一个包含数百万个高维向量的大型可扩展数据库。由于我必须将所有数据保存在 ram 中以进行快速查询,因此必须将数据分布到多个服务器上以保存所有对象。
一种天真的方法是将所有对象分散到不同的服务器,然后向每个服务器发送一个查询。具有最佳答案的服务器正确地具有正确的对象。
我确信一定有更好的解决方案,其中不必将查询发送到所有服务器节点,并且类似的对象在一个服务器上组合在一起。
分布式 LSH 表的好方法是什么?也许还有一些项目在那里?
感谢任何提示。
【问题讨论】:
-
我会看一下带有自定义分区的 Cassandra。
-
这可能是相关的:Distributed Similarity Search in High Dimensions Using Locality Sensitive Hashing,作者是 Haghani、Michele 和 Arberer。
-
@KiptonBarros 的链接已经消失,但是可以在这里找到这篇论文:openproceedings.org/2009/conf/edbt/HaghaniMA09.pdf
标签: database distributed hash