【发布时间】:2015-07-31 17:40:21
【问题描述】:
维基百科以每小时文本文件的形式提供他们所有的页面浏览量。 (例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)
对于一个项目,需要提取 2014 年的关键字及其相关的页面浏览量。但是看到一个文件(代表 1 小时,因此总共 24*365 个文件)约为 80MB。手动执行这可能是一项艰巨的任务。
我的问题: 1. 有没有办法自动下载文件? (文件结构正确,这可能会有所帮助)
【问题讨论】:
标签: download pageviews wikimedia-dumps