【问题标题】:Get categories from Wikipedia:Vital articles从维基百科获取类别:重要文章
【发布时间】:2018-10-26 22:25:23
【问题描述】:

我正在尝试从维基百科为我正在从事的项目获取“类别树”。问题是我只想要更常见的主题和研究领域,所以我能找到的大型转储包含太多的外围文章。

我最近发现了vital articles pages,它似乎是我正在寻找的东西的集合。不幸的是,我真的不知道如何从这些页面中提取信息或过滤较大的转储以仅包含这些类别和文章。

明确地说,我的问题是:给定一个重要的文章级别 (say level 4),我如何提取给定列表的类别树和文章名称,例如人、艺术、物理科学等到 csv 或类似文件中,然后我可以将其导入到另一个程序中。我不需要文章的实际内容,只需要名称(最好是对文章的引用,以便稍后获取更多信息)。

我也愿意接受有关如何更好地完成这项任务的建议。

谢谢!

【问题讨论】:

    标签: mediawiki wikipedia wikidata wikidata-api


    【解决方案1】:

    你用过PetScan吗?它是基于 wikimedia 的工具,允许根据某些条件从页面中提取数据。

    您可以通过使用该工具来实现您的目标,然后导航到“模板和链接”选项卡,然后在“链接自所有这些页面:”字段中输入页面名称,例如Wikipedia:Vital_articles/Level/4/History。如果要在 textarea 中添加多个页面,只需逐行键入即可。

    最后,按下执行!按钮,将生成数据。之后,您可以从输出选项卡下载数据。

    【讨论】:

    • 谢谢!我一直在使用 PetScan,但找不到正确的查询格式。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-08-06
    • 2011-02-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多