在 Python 中使用 LXML 解析 HTML答案

【问题标题】：Parse HTML using LXML in Python在 Python 中使用 LXML 解析 HTML
【发布时间】：2013-01-17 18:57:49
【问题描述】：

我正在尝试为网站解析

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah

（其中有很多，我希望它们都以某种标记化的形式出现）。不幸的是，HTML 非常大而且有点复杂，所以试图爬下树可能需要一些时间来整理嵌套元素。有没有简单的方法来检索它？

谢谢！

【问题讨论】：

究竟是什么问题？您可以使用 .attrib 属性获取元素属性，例如elem.attrib['href'].
如果 lxml 在源代码上中断，请尝试 BeautifulSoup。

标签： python html parsing html-parsing lxml

【解决方案1】：

如果你只想要a 标签的href，那么使用：

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

【讨论】：

//a/@href 有什么作用？就我而言，a 和 href 之间有两个空格，而不是一个。