【发布时间】:2016-01-08 09:28:37
【问题描述】:
我正在尝试从网页中提取一些数字,特别是 RealClearPolitics 的当前总统支持率。
这是我正在使用的代码,尝试使用 urllib2 获取网页,使用 lxml 解析所有内容,并使用 chrome 报告的 xpath。问题是,我最后得到的只是一个空列表。
import urllib2
from lxml import etree
url = "http://www.realclearpolitics.com/epolls/other/president_obama_job_approval-1044.html"
page = urllib2.urlopen(url)
tree = etree.parse(page.content, etree.HTMLParser())
rcp=tree.xpath('//*[@id="polling-data-rcp"]/table/tbody/tr[2]/td[4]')
print rcp
任何帮助将不胜感激!
【问题讨论】:
-
tbody可能不存在于 HTML 文件中。尝试不使用tbody。 -
这样做了,然后我将 xpath 更改为
//*[@id="polling-data-rcp"]/table/tbody/tr[2]/td[4]/text()并解决了问题! -
转到文档。
标签: python python-2.7 xpath lxml