【问题标题】:datasketch: MinHash LSH Forest数据草图:MinHash LSH 森林
【发布时间】:2018-09-12 16:44:05
【问题描述】:

我正在尝试为最近邻搜索创建一个 forst,但我不确定我做对了,或者即使 MinHash / LSH 是否适合我的数据。我问这个是因为结果不可用。

我正在尝试关注文档中的example

我的数据:

512 个维度,例如值是一个位,例如 0 或 1 这实际上可用于 MinHash / LSH 吗? 如果是,我将如何为每条记录构造 MinHash?

据我了解,minhash 的重点已经是将数据映射到这样的位结构?所以我可以把这些位加载进去吗?如h = MinHash(num_perm=512, hashvalues=listOfBits) ?

【问题讨论】:

    标签: python lsh


    【解决方案1】:

    MinHash 是一种可以使用的技术,如果单个数据记录可以被描述为集合(例如,文本文档作为单词的集合)并且这些记录之间的相似性由相应集合的 Jaccard 相似性来描述。

    如果你真的想应用 MinHash,你首先需要找到一种方法来表示你的大小为 512 的位向量。一种可能性是考虑值为 1 的位索引集。接下来,您需要考虑这些位索引集之间的 Jaccard 相似性是否真的有意义并适当地描述相似性。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-12-26
      • 1970-01-01
      • 2019-07-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多