Java：优化的大规模价值存储替代方案答案

【问题标题】：Java: Optimized Large Scale Value Storage AlternativesJava：优化的大规模价值存储替代方案
【发布时间】：2019-10-12 15:56:35
【问题描述】：

我正在开发一个网络爬虫/蜘蛛，我需要一些方法来有效地大量存储字符串作为 (1) 已存储站点和 (2) 我的爬虫队列的参考。这些存储数据结构必须能够保存数百万以上的字符串值。我将分别从我研究过的研究和我做过的事情开始。

我尝试的第一个方法是从这个线程中引用的

Java: optimize hashset for large-scale duplicate detection

在这个帖子中，OP 谈到了优化 HashSet 并得到了很多很好的反馈和警告。 HashSet 使用起来非常昂贵，并导致我的程序很快崩溃。在回复中，有人提出了 Trove 之类的替代方案，但该项目已经停止，我相信还有更好的替代方案。

我尝试的第二种方法是使用 MongoDB 创建一个队列。我为队列显式创建了一个集合，在该队列中我遵循 FIFO，因为 Mongo 使用锁，因此它应该是线程安全的。据我所知，它运作良好。我的爬虫运行得非常好，平均使用很少的内存（12~42MB）。然而，这种方法很快被证明非常糟糕，因为 MongoDB 的搜索速度为 o(n)。创建一个迭代器来检查每个要缓存的单个网站的两个集合（网站集合和队列集合）被证明是非常有害的。

关注了这个话题

Strategies for fast searches of billions of small documents in MongoDB

它确实略微提高了搜索质量，但只是轻微的抵消。下面是我的网络爬虫的简单伪代码。

while(true){
    parse();
}

public void parse(){
    String next = // next url in queue to be parsed
    Document document = // get HTML dom from next url

    // store document inside of site storage (mongo collection)
    // grab links from document

    for( all links found ) {
        if(next doesn't exist in website collection and next isn't already in queue){
            add to queue 
        }
    }

}

检查“网站集合中不存在下一个并且下一个不在队列中”，我必须创建一个迭代器或使用 mongo.collection.find().limit(1) （这也是迭代器，就在幕后）检查下一个元素是否存在于当前存储的网站或队列中。如您所见，随着这两个集合的增长，目前两者都有超过 100,000 个条目，处理器不断检查这两个集合可能非常昂贵且缓慢。

这让我回到了我的第一个方法，它在内存中保存了可能多达数十亿个 URL，以便更快地搜索两个存储中的重复项。我读到的大部分内容都非常有用，但已经过时了，我想知道你们认为最好的方法是什么？

【问题讨论】：

标签： java mongodb optimization duplicates web-crawler

【解决方案1】：

在内存中可能保存多达数十亿个 URL

这肯定是你不需要也不应该做的事情。

我必须创建一个迭代器

这肯定是你不能做的事情（除非迭代器只运行一小部分数据）。

网站集合中不存在下一个，并且下一个不在队列中

考虑数据表示。对于搜索，列表太慢了，所以你需要一个索引搜索。类似于HashMap 或TreeMap，但在磁盘上。

我对 MongoDB 几乎一无所知，但每个名副其实的数据库都可以做到这一点。我想，它已经适用于您的 collection，只是 queue 是个问题。队列更复杂，因为您需要快速搜索和队列性。

这个问题可以通过将每个新元素同时放入 queue 和 collection 来轻松解决，因此您只需检查集合中是否存在重复项（IIUYC 可以你做得很快）。显然，您需要一个标记来区分尚未获取的元素。

下一个优化是在内存中保留一些最近访问的元素的缓存，以便可以消除一些重复的 DB 查询。我敢打赌，布隆过滤器也会有所帮助。

您也可以在磁盘上使用真实的Map：https://github.com/OpenHFT/Chronicle-Map

【讨论】：