从种子开始爬取维基百科页面

【问题标题】：Crawl Wikipedia pages starting from a seed从种子开始爬取维基百科页面
【发布时间】：2014-04-17 00:49:33
【问题描述】：

从种子开始爬取维基百科最有效的方法是什么？

我想做的是从种子（即特定页面）开始，然后爬取距离种子最大距离为N 的页面。应通过导航页面中包含的链接来完成爬网。

例如，在 N=2 的情况下，我将展开到种子中链接的每个页面 (distance=1)，然后对于这些页面中的每一个，再次展开到它链接的页面 (@987654324 @)。

Java 解决方案是首选，但脚本（例如 Python）也可以。

【问题讨论】：

标签： web-crawler wikipedia

【解决方案1】：

您可以使用 API 来执行此操作，特别是 the links module。

初始查询如下所示：

http://en.wikipedia.org/w/api.php?action=query&prop=links&titles=Page

There are libraries for accessing the API from almost any language.

【讨论】：

猜你喜欢

1970-01-01
2016-08-04
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2016-10-11

相关资源

下载 2023-04-06
下载 2022-12-03
下载 2023-01-02
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode