【发布时间】:2019-07-08 01:43:12
【问题描述】:
我尝试使用带有 lxml 的 xpath 从 html 标记中抓取 href 链接。但是 xpath 正在返回 null 列表,而它是单独测试的,它似乎可以工作。
代码返回空值,而 xpath 似乎工作正常。
page = self.opener.open(link).read()
doc=html.fromstring(str(page))
ref = doc.xpath('//ul[@class="s-result-list s-col-1 s-col-ws-1 s-result-list-hgrid s-height-equalized s-list-view s-text-condensed s-item-container-height-auto"]/li/div/div[@class="a-fixed-left-grid"]/div/div[@class="a-fixed-left-grid-col a-col-left"]/div/div/a')
for post in ref:
print(post.get("href"))
我正在使用代理服务器来访问链接,它似乎可以工作,因为“doc”变量正在填充 html 内容。 我检查了链接,并且在正确的页面上获取此 xpath。
【问题讨论】:
标签: python xpath web-scraping lxml