【发布时间】:2017-07-19 14:04:43
【问题描述】:
我想下载 Wikipedia 上一篇文章的完整修订历史记录,但遇到了障碍。
下载整篇维基百科文章或使用Special:Export URL 参数获取其历史片段非常容易:
curl -d "" 'https://en.wikipedia.org/w/index.php?title=Special:Export&pages=Stack_Overflow&limit=1000&offset=1' -o "StackOverflow.xml"
当然,我可以下载整个网站,包括来自here 的每篇文章的所有版本,但这已经超过了我需要的数 TB 数据量。
是否有预先构建的方法来执行此操作? (好像应该有。)
【问题讨论】: