【发布时间】:2011-03-20 21:12:33
【问题描述】:
我想要一种下载 Wikipedia 上热门文章历史中每一页内容的方法。换句话说,我想获得一篇文章的每次编辑的全部内容。我该怎么做呢?
有没有一种使用 Wikipedia API 的简单方法来做到这一点。我看了看,没有发现任何弹出的简单解决方案。我还查看了 PyWikipedia Bot 页面 (http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813) 上的脚本,但没有发现任何有用的东西。用 Python 或 Java 做一些简单的方法是最好的,但我愿意接受任何可以让我获得数据的简单解决方案。
【问题讨论】:
标签: scripting wikipedia web-scraping