【问题标题】:How to get all historical events on Wikipedia?如何获取维基百科上的所有历史事件?
【发布时间】:2013-02-06 17:47:10
【问题描述】:

我想获取维基百科上所有历史事件的文章?解决此问题的最佳方法是什么?维基API?数据库转储?我查看了 DBPedia,到目前为止它似乎非常有限(但仍然令人印象深刻)。

【问题讨论】:

    标签: wikipedia wikipedia-api


    【解决方案1】:

    有关历史事件的所有文章列表,请查看the Events category,尤其是its subcategory Events by time。要获取一个类别及其所有子类别中的所有文章,您可以使用 API 或 SQL 转储(您至少需要表 categorylinkspage;如果您使用的是 .Net,my library 可能会有所帮助你和那个)。

    要真正获取许多文章的文本,您绝对应该使用 XML 转储,可能是 pages-articles

    【讨论】:

    • 有没有推荐的从 XML 转储中提取数据的工具?
    • 另外,我很好奇为什么要通过事件类别,而不是历史类别?
    • @user1530580 我用的不多,而且我认为几乎任何语言都有合理的 XML 库,选择一个。只要确保您没有尝试一次将整个 XML 加载到内存中。你要求事件,所以我寻找包含事件的类别。但只有你知道你到底需要什么。
    • 好的,谢谢。我只是想知道是否有一些特定的工具推荐用于通过 wiki 的 xml 转储,但我猜没有。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-08-19
    • 1970-01-01
    • 2019-07-10
    • 1970-01-01
    相关资源
    最近更新 更多