如何使用scrapy python从img标签获取srcset答案

【问题标题】：How to get srcset from img tag using scrapy python如何使用scrapy python从img标签获取srcset
【发布时间】：2020-05-04 15:13:47
【问题描述】：

所以我从产品页面中提取了一些信息，我想从 img 标签中获取 img 链接，但它有一个包含多个链接的 srcset，我不知道如何使用 scrapy 获取它的数据：

HTML：

<img width="768" height="1152" alt="Top com brilho - Preto - SENHORA | H&amp;M PT" class="Top com brilho - Preto - SENHORA | H&amp;M PT" srcset="//lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[y],hmver[1]&amp;call=url[file:/product/main] 396w,
		//lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[w],hmver[1]&amp;call=url[file:/product/main] 564w, 
        //lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[s],hmver[1]&amp;call=url[file:/product/main] 657w, 
        //lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[m],hmver[1]&amp;call=url[file:/product/main] 820w" sizes="(max-width: 767px) 100vw, 50vw" src="//lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[m],hmver[1]&amp;call=url[file:/product/main]">

有没有办法获取所有链接或者列出所有链接？

【问题讨论】：

标签： python-3.x web-scraping scrapy

【解决方案1】：

检查网站是否使用 JSON 或 Javascript 会影响 scrapy 处理数据的方式。单击网站中的检查元素并尝试查看它是否选择了所有图像链接

//div[@class = 'product-detail-main-image-container']/img/@src

【讨论】：

【解决方案2】：

我设法使它与以下代码一起工作：

self.img = response.xpath('/html/body/main/div[2]/div[2]/div[1]/figure[1]/div/img/@srcset').get()
        self.img = self.img.split('\r')[0][2:]
        self.img, x = self.img.split(' ')

【讨论】：