【发布时间】:2016-12-22 17:27:01
【问题描述】:
我想解析 Wikipedia 上的地理页面(即地标、名胜古迹)以返回仅包含页面标题和从页面中抓取的 GIS 坐标的 json 文件。
例如,查看页面:https://en.wikipedia.org/wiki/The_Sanctuary
使用api:https://en.wikipedia.org/w/api.php?action=query&titles=The%20Sanctuary&prop=revisions&rvprop=content&format=json从页面内容返回所有数据。
但是,我只想返回以下元素:
"title":"圣所" 坐标|51.41000|N|1.83173|W
请任何人建议如何正确构建 Web 服务调用?
这是我第一次尝试从页面中抓取内容,因此非常感谢任何指导
【问题讨论】:
标签: web-scraping mediawiki-api