【发布时间】:2017-10-24 17:06:31
【问题描述】:
我正在尝试获取每篇英文维基百科文章的所有修订历史记录。我只需要所有编辑的姓名和版本大小(以字节为单位)以及文章标题或 ID。所有修订历史的维基百科转储都是几 TB,我的计算机无法处理它。我也尝试使用 MediaWiki 来查询修订历史,但似乎需要很长时间才能获得所有内容。有没有其他方法可以尝试获取我想要的信息?谢谢。
【问题讨论】:
-
获得更大的磁盘/使用云计算?有一些 API 在技术上可以做到这一点,但这种负载可能远远超出其预期用途。
标签: mediawiki wikipedia mediawiki-api