分布式环境中的布隆过滤器答案

【问题标题】：Bloom filters in a distributed environment分布式环境中的布隆过滤器
【发布时间】：2018-10-29 13:23:28
【问题描述】：

我有一个由几个应用程序实例组成的系统，用 Java 编写。对它们的请求是负载平衡的，以实现高可用性。每秒钟，这个“集群”接收数百个小数据块（每个数据块由几个简单的字符串组成），存储在数据库中，保存几天然后丢弃。除了存储这些数据之外，主要要求是快速确定给定值是否存储在数据库中。一个适当索引和分区的数据库表似乎适合这个问题，并且做得很好，至少现在是这样。

问题是，大约 80% 的搜索值没有找到，因为它们不在数据库中。因此，我想加快速度，使搜索速度更快，资源消耗更少。布隆过滤器将是显而易见的选择，如果不是因为不同的应用程序实例接收不同部分的数据，并且如果每个应用程序实例的布隆过滤器中只有一部分数据，那么这些布隆过滤器将毫无用处。

您对如何解决这个问题有任何建议/想法吗？

【问题讨论】：

嘿，你找到解决方法了吗？

标签： java search distributed-system bloom-filter

【解决方案1】：

保留几天，然后丢弃

布隆过滤器不支持删除对象，只支持插入。
如果您有多个布隆过滤器，则必须全部查询它们以检查其中一个是否包含您需要的对象。

如果布隆过滤器具有相同的结构（相同的大小、相同的哈希函数等），则可以有效地合并。

您可以使用此布隆过滤器： https://github.com/odnoklassniki/apache-cassandra/blob/master/src/java/org/apache/cassandra/utils/BloomFilter.java

并像这样合并两个过滤器：

BloomFilter merge(BloomFilter dstFilter, BloomFilter srcFilter) {
    OpenBitSet dst = dstFilter.bitset;
    OpenBitSet src = srcFilter.bitset;

    for (int i = 0; i < src.getPageCount(); ++i) {
        long[] dstBits = dst.getPage(i);
        long[] srcBits = src.getPage(i);

        for (int j = 0; j < srcBits.length; ++j) {
            dstBits[j] |= srcBits[j];
        }
        dst.setPage(i, dstBits);
    }
    return dstFilter;
}

【讨论】：

是的，但是由于每天只丢弃一次旧数据，我认为每次丢弃旧数据时重新构建布隆过滤器是有意义的。
它回答了你的问题吗？
注意：如果您使用计数布隆过滤器，您可以删除单个键：hadoop.apache.org/docs/current/api/org/apache/hadoop/util/bloom/…
感谢 cmets。也许我的问题有点误导；它不是关于布隆过滤器本身，而是关于如何有效地在多个实例之间保持过滤器同步。但无论如何，您的 cmets 很有用，谢谢。
@zgguy 你能解决这个问题吗？如何保持布隆过滤器同步？还是在分布式环境中使用的最佳方式？