【问题标题】:Is there a Python module for parsing Wikipedia articles without MediaWiki?是否有用于解析没有 MediaWiki 的 Wikipedia 文章的 Python 模块?
【发布时间】:2015-10-09 22:23:02
【问题描述】:

我正在尝试梳理维基百科的文章,并希望了解每篇文章的以下信息:

纯文本内容、链接、重定向(重定向到当前页面的页面标题)和元数据(每月的页面查看和编辑)

MediaWiki API 非常全面,但也非常密集,因为它是为编辑页面而设计的。我已经尝试过 Wikipedia 和 mwclient 模块,但它们没有可用的元数据。是否有其他可用工具提供 API 的只读功能而无需 API 开销?

【问题讨论】:

    标签: python mediawiki wikipedia mediawiki-api


    【解决方案1】:

    有几个alternative parsers,但一般来说,MediaWiki 的解析很难复制(它没有正式的规范并且被实现为一堆正则表达式)。使用 API 或 DB dumps 几乎总是更好。具体来说,链接和重定向可用作数据库转储中的表。文字可通过extracts API 获得,网页浏览量为a work in progress。我认为没有汇总的编辑数据可用。

    【讨论】:

      猜你喜欢
      • 2022-07-26
      • 2011-06-06
      • 2011-01-08
      • 1970-01-01
      • 1970-01-01
      • 2022-10-20
      • 1970-01-01
      • 2011-02-21
      • 1970-01-01
      相关资源
      最近更新 更多