【发布时间】:2016-10-20 16:55:25
【问题描述】:
我正在寻找一种经过优化的集合数据结构,以使项目成为集合的一部分的可能性非常低。
该用例是 Gnip/Twitter 合规性消防软管,我们每秒收到大约 1,000 个事件(即从所有 Twitter 中删除)。我们有一张表,假设存储了 1000 万条推文(每年以该数量增长),如果某个项目出现在消防软管中,我必须将其删除。我猜每 100,000 秒就会有一场比赛(从空中拉出一个数字)。
我曾想过一个布隆过滤器,可能是几个链式的,但鉴于命中率非常低,我总是需要遍历整个链,事情最终会变得线性。
是否有一个很好的亚线性数据结构?
【问题讨论】:
-
你试过使用哈希表吗?
-
哈希表的大小会线性增加,我试图避免这种情况。
标签: data-structures bloom-filter