【问题标题】:Getting xml from wikipedia page从维基百科页面获取 xml
【发布时间】:2013-02-13 08:10:28
【问题描述】:

我正在尝试从 xml 解析维基百科页面。 我正在使用 Special:Export 链接来获取带有类似链接的页面的 xml:

http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis

但是当我尝试获取文件或类别页面时,我无法使用此链接,例如,此页面不返回 xml:

http://en.wikipedia.org/wiki/Special:Export/Category:English-language_films

http://en.wikipedia.org/wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了解决方案,但我不明白:

  1. 为页面名称添加命名空间前缀(例如“Help:Contents”), 除非所选命名空间是主命名空间。
  2. 对其他命名空间重复上述步骤(例如类别:, 模板:等)

我在http://meta.wikimedia.org/wiki/Help:Export 找到了这个解决方案。 请问这是什么意思。

谢谢。

【问题讨论】:

标签: xml parsing wikipedia


【解决方案1】:

@987654321@ 生成给定页面的内容,但“类别文章列表”或“文件”不是页面。从 Export 中得到的只是类别或文件描述页面的 xml。

要检索属于某个类别的页面列表,您需要 MediaWiki API:@987654322@.

试试this example。您也可以使用API Sandbox 来了解不同的参数。

您不能直接下载文件。但是,@987654325@ API 可以为您生成文件的 URL,例如 this example

另见:Download images with MediaWiki API?

【讨论】:

  • 谢谢,这很有帮助
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-09-15
  • 2016-08-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多