【发布时间】:2016-11-13 16:05:09
【问题描述】:
我正在使用 scrapy 编写一个抓取工具,它可以找到包含图片的链接并抓取链接的 href。我正在抓取的页面填充有图像缩略图,当您单击缩略图时,它会链接到图像的全尺寸版本。我想获取完整尺寸的图片。
html 看起来有点像这样:
<a href="example.com/full_size_image.jpg">
<img src="example.com/image_thumbnail.jpg">
</a>
我想抢"example.com/full_size_image.jpg"。
我目前的做法是
img_urls = scrapy.Selector(response).xpath('//a/img/..').xpath("@href").extract()
但我想将其简化为单个 xpath 表达式,因为我计划允许用户输入他们自己的 xpath 表达式字符串。
【问题讨论】:
标签: html xpath web-scraping scrapy