【发布时间】:2013-03-07 13:09:34
【问题描述】:
我有这个 HTML:
<a href="some content">Click here</a>
如何在 Python 2.7 上使用 xpath 提取 some content 和 click me?
到目前为止,我有以下内容(仅从 href 结果中提取“一些内容”):
import lxml.etree as LE
import requests
r = requests.get("http://localhost")
html = r.text
root = LH.fromstring(html)
print root.xpath('//a/@href')
【问题讨论】:
-
你必须使用xpath吗?正则表达式应该适用于 HTML。
-
我以前用正则表达式来做...但后来我在膝盖上中了一箭。把笑话放在一边。不建议使用正则表达式来解析 html/xml 结果:)
-
啊,我明白了。我不熟悉xpath。也许下次我需要解析 html 时我会尝试一下。
-
xpath 和 lxml 工作得很好。而且速度更快。