【发布时间】:2017-12-26 07:02:46
【问题描述】:
我正在尝试确定网站上的任何搜索结果有多少页面,以便我可以使用 lxml 和 xpath 为所有页面抓取数据。
有一个分页标签,结构如下: 页数:1 2 3 ... 7 下一页
html 内容类似
<ul class="ulclass">
<li></li>
<li>
<span> You are on the first page</span>
"1"
</li>
<li>
<a href="link to second page">
<span></span>
"2"
</a>
</li>
<li>
</li>
...
<li>
<a href="link to last page">
<span></span>
"7"
</a>
</li>
我的方法是提取页码 1、2、3、7,这样我就可以为每个页面重复网络抓取 7 次,否则它只会抓取页面的第一个结果。 我编写了以下 xpath,但它没有返回正确的页码。
xpath('//ul[@class="ulclass"]/li/a/text())
【问题讨论】:
-
如果你在做网页抓取,你在使用什么其他软件?
-
我目前没有使用除 python 和 lxml 以外的任何东西。
标签: xpath web-scraping