【发布时间】:2020-03-03 22:51:52
【问题描述】:
我正在尝试从 Wikipedia 中检索所有关于人的文章。更具体地说,我正在寻找:
- 只有页面标题(也许还有页面 ID)
- 关于人的文章,
- 按性别分隔(为了简单起见,男性和女性),
- 来自当前英语维基百科。
我尝试了几件事,但都没有成功:
维基百科 API 让我search for all pages in a given category。但是,在“男性”或“女性”中搜索主要获取子类别页面,而关于真实人物的页面则被进一步隐藏在子类别层次结构中。我找不到自动遍历层次结构的方法。
-
PetScan 允许我指定层次结构深度,但请求会在深度超过 3 时超时。此外,与 Wikipedia API 一样,结果包括与人无关的文章。
Wikidata 允许我编写 SPARQL 查询来搜索具有“男性”或“女性”性别的实体。 This example seems to work,但是一旦我在查询中包含实体名称,它就会超时。此外,我不确定这些数据与 Wikipedia 文章的对应关系如何——这些数据是否保证与 Wikipedia 上的数据相同?
实现我的目标的最佳方法是什么?
【问题讨论】:
标签: wikipedia-api wikidata wikidata-api