【问题标题】:Wikipedia revision history维基百科修订历史
【发布时间】:2017-10-24 17:06:31
【问题描述】:

我正在尝试获取每篇英文维基百科文章的所有修订历史记录。我只需要所有编辑的姓名和版本大小(以字节为单位)以及文章标题或 ID。所有修订历史的维基百科转储都是几 TB,我的计算机无法处理它。我也尝试使用 MediaWiki 来查询修订历史,但似乎需要很长时间才能获得所有内容。有没有其他方法可以尝试获取我想要的信息?谢谢。

【问题讨论】:

  • 获得更大的磁盘/使用云计算?有一些 API 在技术上可以做到这一点,但这种负载可能远远超出其预期用途。

标签: mediawiki wikipedia mediawiki-api


【解决方案1】:

反过来说,也许您不需要下载所有数据。 例如,如果您打算使用 SQL,则可以从服务器执行此操作,而无需下载任何内容。

请查看https://quarry.wmflabs.org/its doc

【讨论】:

  • 抱歉这么晚才回复。非常感谢!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-11-02
相关资源
最近更新 更多