【发布时间】:2019-10-12 15:56:35
【问题描述】:
我正在开发一个网络爬虫/蜘蛛,我需要一些方法来有效地大量存储字符串作为 (1) 已存储站点和 (2) 我的爬虫队列的参考。这些存储数据结构必须能够保存数百万以上的字符串值。我将分别从我研究过的研究和我做过的事情开始。
我尝试的第一个方法是从这个线程中引用的
在这个帖子中,OP 谈到了优化 HashSet 并得到了很多很好的反馈和警告。 HashSet 使用起来非常昂贵,并导致我的程序很快崩溃。在回复中,有人提出了 Trove 之类的替代方案,但该项目已经停止,我相信还有更好的替代方案。
我尝试的第二种方法是使用 MongoDB 创建一个队列。我为队列显式创建了一个集合,在该队列中我遵循 FIFO,因为 Mongo 使用锁,因此它应该是线程安全的。据我所知,它运作良好。我的爬虫运行得非常好,平均使用很少的内存(12~42MB)。然而,这种方法很快被证明非常糟糕,因为 MongoDB 的搜索速度为 o(n)。创建一个迭代器来检查每个要缓存的单个网站的两个集合(网站集合和队列集合)被证明是非常有害的。
关注了这个话题
Strategies for fast searches of billions of small documents in MongoDB
它确实略微提高了搜索质量,但只是轻微的抵消。下面是我的网络爬虫的简单伪代码。
while(true){
parse();
}
public void parse(){
String next = // next url in queue to be parsed
Document document = // get HTML dom from next url
// store document inside of site storage (mongo collection)
// grab links from document
for( all links found ) {
if(next doesn't exist in website collection and next isn't already in queue){
add to queue
}
}
}
检查“网站集合中不存在下一个并且下一个不在队列中”,我必须创建一个迭代器或使用 mongo.collection.find().limit(1) (这也是迭代器,就在幕后)检查下一个元素是否存在于当前存储的网站或队列中。如您所见,随着这两个集合的增长,目前两者都有超过 100,000 个条目,处理器不断检查这两个集合可能非常昂贵且缓慢。
这让我回到了我的第一个方法,它在内存中保存了可能多达数十亿个 URL,以便更快地搜索两个存储中的重复项。我读到的大部分内容都非常有用,但已经过时了,我想知道你们认为最好的方法是什么?
【问题讨论】:
标签: java mongodb optimization duplicates web-crawler