【发布时间】:2011-01-06 06:43:45
【问题描述】:
我有这个 xpath 查询:
/html/body//tbody/tr[*]/td[*]/a[@title]/@href
它提取所有带有标题属性的链接 - 并在FireFox's Xpath checker add-on 中给出href。
但是,我似乎无法将它与 lxml 一起使用。
from lxml import etree
parsedPage = etree.HTML(page) # Create parse tree from valid page.
# Xpath query
hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href")
for x in hyperlinks:
print x # Print links in <a> tags, containing the title attribute
这不会产生来自lxml 的结果(空列表)。
如何在 Python 下获取包含lxml 属性标题的超链接的href 文本(链接)?
【问题讨论】:
-
您正在解析的文档是否设置了命名空间(xmlns)?
标签: python screen-scraping hyperlink lxml extraction