【问题标题】:wikipedia API to get a particular search text in text formatwikipedia API 以文本格式获取特定搜索文本
【发布时间】:2012-08-09 06:27:59
【问题描述】:

我想将“United States of America”的所有内容 grep 到没有图像的文本文件中。我正在寻找文本格式的回复。

我该怎么做?我构建了这个网址:http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

但我没有得到我想要的。也许我错过了一些基本的东西。

  1. 如何获取我在查询中给出的任何字符串的内容?请帮我提供网址。

  2. 我正在尝试将其保存在文本文件中。我可以得到文本格式的响应吗?除了 XML 和 JSON?

  3. 在美国的例子中,我想得到第一列的城市主要人口中心。是否可以获得该信息(或)我应该使用解析器吗?

【问题讨论】:

    标签: php mediawiki wiki wikipedia wikipedia-api


    【解决方案1】:

    如果你只需要文章的文字,action=raw比使用API​​简单得多:

    http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css

    http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand

    ctype=text/css 仅在您想在浏览器中打开时才重要。)

    不清楚您在第 3 点中在说什么,但如果您想从表中提取数据,最好的办法可能是获取渲染 (HTML) 内容并使用某种 DOM 解析器(并保留半关注Wikidata,这将使事情在几个月内变得更加简单)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-12-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多