【发布时间】:2011-07-07 21:58:06
【问题描述】:
我希望能够从 http://en.wikipedia.org/wiki/Special:Export 下载数千篇文章的完整历史记录,并且我正在寻找一种程序化方法来自动化它
我在 python 中开始了以下操作,但没有得到任何有用的结果
query = "http://en.wikipedia.org/w/index.api?title=Special:Export&pages=%s&history=1&action=submit" % 'Page_title_here'
f = urllib.urlopen(query)
s = f.read()
有什么建议吗?
【问题讨论】:
-
最坏的情况,你可以在这里下载所有的历史记录:download.wikimedia.org/enwiki/20100130/…(或thepiratebay.org/torrent/6430796 for a torrent)
-
该文件有多大?
-
280GB,解压到 5TB。但很快就会发布一个 Python 解决方案。