【问题标题】:How can I get the full change history for an article on Wikipedia?如何获取 Wikipedia 上文章的完整更改历史记录?
【发布时间】:2011-03-20 21:12:33
【问题描述】:

我想要一种下载 Wikipedia 上热门文章历史中每一页内容的方法。换句话说,我想获得一篇文章的每次编辑的全部内容。我该怎么做呢?

有没有一种使用 Wikipedia API 的简单方法来做到这一点。我看了看,没有发现任何弹出的简单解决方案。我还查看了 PyWikipedia Bot 页面 (http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813) 上的脚本,但没有发现任何有用的东西。用 Python 或 Java 做一些简单的方法是最好的,但我愿意接受任何可以让我获得数据的简单解决方案。

【问题讨论】:

    标签: scripting wikipedia web-scraping


    【解决方案1】:

    嗯,一种解决方案是解析 Wikipedia XML 转储。

    只是想我会把它放在那里。

    如果您只获得 一个 页面,那就太过分了。但是,如果您不需要最新的信息,使用 XML 将具有一次性下载而不是重复网络访问的优势。

    【讨论】:

      【解决方案2】:

      对此有多种选择。您可以使用 Special:Export 特殊页面来获取页面历史记录的 XML 流。或者您可以使用/w/api.php 下的 API。使用action=query&title=$TITLE&prop=revisions&rvprop=timestamp|user|content 等获取历史记录。 Pywikipedia为此提供了一个接口,但我不知道如何调用它。 Python 的替代库mwclient 也提供此功能,通过site.pages[page_title].revisions()

      【讨论】:

      • 完美!这正是我想要的。
      猜你喜欢
      • 1970-01-01
      • 2016-03-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-08-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多