【问题标题】:Extracting Wikimedia pageview statistics提取维基媒体浏览量统计数据
【发布时间】:2015-07-31 17:40:21
【问题描述】:

维基百科以每小时文本文件的形式提供他们所有的页面浏览量。 (例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/

对于一个项目,需要提取 2014 年的关键字及其相关的页面浏览量。但是看到一个文件(代表 1 小时,因此总共 24*365 个文件)约为 80MB。手动执行这可能是一项艰巨的任务。

我的问题: 1. 有没有办法自动下载文件? (文件结构正确,这可能会有所帮助)

【问题讨论】:

    标签: download pageviews wikimedia-dumps


    【解决方案1】:

    下载?当然,这很简单:

    wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/
    

    递归 wget 做到了。请注意,这些文件现在已弃用;你可能想改用http://dumps.wikimedia.org/other/pagecounts-all-sites/

    【讨论】:

      【解决方案2】:

      我参与了这个项目:https://github.com/idio/wikiviews 您只需将其称为 python wikiviews 2 2015,它就会下载 2015 年 2 月的所有文件,并将它们合并到一个文件中。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-05-20
        • 2023-02-11
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多