【发布时间】:2013-01-17 18:57:49
【问题描述】:
我正在尝试为网站解析
blahblahblah
<a href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah
(其中有很多,我希望它们都以某种标记化的形式出现)。不幸的是,HTML 非常大而且有点复杂,所以试图爬下树可能需要一些时间来整理嵌套元素。有没有简单的方法来检索它?
谢谢!
【问题讨论】:
-
究竟是什么问题?您可以使用
.attrib属性获取元素属性,例如elem.attrib['href']. -
如果 lxml 在源代码上中断,请尝试 BeautifulSoup。
标签: python html parsing html-parsing lxml