【发布时间】:2010-10-25 17:23:38
【问题描述】:
从 Wikipedia 获取所有关于人物的文章最简单的方法是什么?我知道我可以下载所有页面的转储,但是如何过滤这些页面并仅获取有关人员的页面?我需要尽可能多的东西(最好超过一百万),所以使用任何类型的 API 可能都不是一种选择。
【问题讨论】:
-
我真的不知道你在问什么,除了超过一百万篇关于人的维基百科文章(这不是一个适合 SO 的主题)。
-
你到底是什么意思?您是否在寻求有关如何实施网络蜘蛛的建议?
-
不,我认为在这种情况下爬虫是不合适的。可以下载维基百科的转储文件。问题是如何过滤转储文件 XML 并仅获取有关人员的页面。