【问题标题】:How do I get all articles about people from Wikipedia?如何从 Wikipedia 中获取有关人员的所有文章?
【发布时间】:2010-10-25 17:23:38
【问题描述】:

从 Wikipedia 获取所有关于人物的文章最简单的方法是什么?我知道我可以下载所有页面的转储,但是如何过滤这些页面并仅获取有关人员的页面?我需要尽可能多的东西(最好超过一百万),所以使用任何类型的 API 可能都不是一种选择。

【问题讨论】:

  • 我真的不知道你在问什么,除了超过一百万篇关于人的维基百科文章(这不是一个适合 SO 的主题)。
  • 你到底是什么意思?您是否在寻求有关如何实施网络蜘蛛的建议?
  • 不,我认为在这种情况下爬虫是不合适的。可以下载维基百科的转储文件。问题是如何过滤转储文件 XML 并仅获取有关人员的页面。

标签: wikipedia wikipedia-api


【解决方案1】:

由于关于人物的文章通常包含 Persondata 模板,因此您只需搜索所有包含 Persondata 的文章。您可以在此处找到用于执行此操作的示例 API 查询:

Does the Wikipedia API support searches for a specific template?

【讨论】:

    【解决方案2】:

    从 2014 年开始,您还有另一个选择:查询 WikiData 以查找属性 instance of (P31) 的值为 human (Q5) 的所有实体。

    人类的完整列表:https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

    从该列表中,过滤掉任何没有sex or gender (P21) 的内容,以删除“科学家”之类的页面

    这样,您无需跟踪维基百科的每个不同语言版本(有285)中的人们使用了哪些模板。

    【讨论】:

      【解决方案3】:

      如果您打算自行推出,基本上您需要关注的是 XML 转储中的“infobox 数据”。

      参考:http://code.google.com/p/infobox2rdf/

      或者您也可以查看http://www.freebase.comhttp://dbpedia.org

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2013-12-04
        • 1970-01-01
        • 2017-11-27
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-12-03
        • 2010-09-12
        相关资源
        最近更新 更多