【发布时间】:2015-05-08 01:18:20
【问题描述】:
我正在寻找一个库来解析 html 页面,特别是维基百科文章,例如:http://en.wikipedia.org/wiki/Railgun,我想提取文章的文本和图像(全尺寸或原始图像而不是拇指)。 那里有html解析器吗? 我宁愿不使用 wikimedia api,因为我似乎无法弄清楚如何提取文章的文本和它们的全尺寸图像。 感谢并为我的英语感到抱歉。
编辑:我忘了说最终结果应该是有效的html
编辑:我得到了 json 字符串:https://en.wikipedia.org/w/api.php?action=parse&pageid=218930&prop=text&format=json 所以现在我需要解析 json。 我知道在javascript中我可以做这样的事情: var pageHTML = JSON.parse("json 字符串").parse.text["*"]; 既然我对 html/javascript 和 python 有一点了解,那我怎样才能发出那个 http 请求并在 python 3 中解析 json 呢?
【问题讨论】:
标签: html json parsing python-3.x wikipedia-api