【问题标题】:Parse HTML using LXML in Python在 Python 中使用 LXML 解析 HTML
【发布时间】:2013-01-17 18:57:49
【问题描述】:

我正在尝试为网站解析

blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah 

(其中有很多,我希望它们都以某种标记化的形式出现)。不幸的是,HTML 非常大而且有点复杂,所以试图爬下树可能需要一些时间来整理嵌套元素。有没有简单的方法来检索它?

谢谢!

【问题讨论】:

  • 究竟是什么问题?您可以使用 .attrib 属性获取元素属性,例如elem.attrib['href'].
  • 如果 lxml 在源代码上中断,请尝试 BeautifulSoup。

标签: python html parsing html-parsing lxml


【解决方案1】:

如果你只想要a 标签的href,那么使用:

data = """blahblahblah 
<a  href="THIS IS WHAT I WANT" title="NOT THIS">I DONT CARE ABOUT THIS EITHER</a>
blahblahblah"""

import lxml.html
tree = lxml.html.fromstring(data)
print tree.xpath('//a/@href')

# ['THIS IS WHAT I WANT']

【讨论】:

  • //a/@href 有什么作用?就我而言,a 和 href 之间有两个空格,而不是一个。
猜你喜欢
  • 1970-01-01
  • 2013-01-01
  • 2012-07-29
  • 2013-12-23
  • 2012-06-10
  • 2023-04-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多