【发布时间】:2015-03-21 18:31:25
【问题描述】:
我正在学习 Scrapy Images Pipeline,我确实可以在 stackoverflow 上的 Scrapy 专家的一些特殊帮助下将图像下载到我的本地文件夹。
但是,Xpath 让我头疼,我无法为不同的代码集找出 xpath 选择器。它在下面给出,我想提取与 data-zoomImage 属性关联的链接。
<div class="imgWrapper">
<img src="http://img1a.flixcart.com/img/thumb-default.jpg"
class="productImage current"
data-imageId="IMAE3RDWTGGCWGHQ"
data-src="http://img6a.flixcart.com/image/lenovo-400x400.jpeg"
data-zoomImage="http://img5a.flixcart.com/image/lenovo-1100x1100.jpeg
</div>
我尝试使用以下选择器提取链接,但没有成功。
('//img/@data-zoomImage/@src').extract()
请大家帮帮我吗?
更新:
我可以使用以下选择器下载 src 属性
('//img[@class="productImage current"]/@src').extract()
我可以通过将 @src 更改为 @data-src 来下载 data-src 属性。但我无法通过相同的逻辑选择 data-zoomImage 属性。关于为什么会发生这种情况的任何想法?
【问题讨论】:
-
我推荐阅读这个 XPath 教程:zvon.org/comp/r/tut-XPath_1.html -- 在抓取时,深入研究 XPath 确实是有回报的。 :)
-
谢谢。真的很有帮助。
标签: python xpath web-scraping scrapy