【问题标题】:Crawl Wikipedia pages starting from a seed从种子开始爬取维基百科页面
【发布时间】:2014-04-17 00:49:33
【问题描述】:

从种子开始爬取维基百科最有效的方法是什么?

我想做的是从种子(即特定页面)开始,然后爬取距离种子最大距离为N 的页面。应通过导航页面中包含的链接来完成爬网。

例如,在 N=2 的情况下,我将展开到种子中链接的每个页面 (distance=1),然后对于这些页面中的每一个,再次展开到它链接的页面 (@987654324 @)。

Java 解决方案是首选,但脚本(例如 Python)也可以。

【问题讨论】:

    标签: web-crawler wikipedia


    【解决方案1】:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-08-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-10-11
      相关资源
      最近更新 更多