【发布时间】:2014-04-17 00:49:33
【问题描述】:
从种子开始爬取维基百科最有效的方法是什么?
我想做的是从种子(即特定页面)开始,然后爬取距离种子最大距离为N 的页面。应通过导航页面中包含的链接来完成爬网。
例如,在 N=2 的情况下,我将展开到种子中链接的每个页面 (distance=1),然后对于这些页面中的每一个,再次展开到它链接的页面 (@987654324 @)。
Java 解决方案是首选,但脚本(例如 Python)也可以。
【问题讨论】:
标签: web-crawler wikipedia