【问题标题】:How to get srcset from img tag using scrapy python如何使用scrapy python从img标签获取srcset
【发布时间】:2020-05-04 15:13:47
【问题描述】:

所以我从产品页面中提取了一些信息,我想从 img 标签中获取 img 链接,但它有一个包含多个链接的 srcset,我不知道如何使用 scrapy 获取它的数据:

HTML:

<img width="768" height="1152" alt="Top com brilho - Preto - SENHORA | H&amp;M PT" class="Top com brilho - Preto - SENHORA | H&amp;M PT" srcset="//lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[y],hmver[1]&amp;call=url[file:/product/main] 396w,
		//lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[w],hmver[1]&amp;call=url[file:/product/main] 564w, 
        //lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[s],hmver[1]&amp;call=url[file:/product/main] 657w, 
        //lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[m],hmver[1]&amp;call=url[file:/product/main] 820w" sizes="(max-width: 767px) 100vw, 50vw" src="//lp2.hm.com/hmgoepprod?set=quality[79],source[/e4/e9/e4e96ab4841af66083ba521c17c1c18a8e300426.jpg],origin[dam],category[ladies_tops_vests],type[DESCRIPTIVESTILLLIFE],res[m],hmver[1]&amp;call=url[file:/product/main]">

有没有办法获取所有链接或者列出所有链接?

【问题讨论】:

    标签: python-3.x web-scraping scrapy


    【解决方案1】:

    检查网站是否使用 JSON 或 Javascript 会影响 scrapy 处理数据的方式。单击网站中的检查元素并尝试查看它是否选择了所有图像链接

    //div[@class = 'product-detail-main-image-container']/img/@src
    

    【讨论】:

      【解决方案2】:

      我设法使它与以下代码一起工作:

      self.img = response.xpath('/html/body/main/div[2]/div[2]/div[1]/figure[1]/div/img/@srcset').get()
              self.img = self.img.split('\r')[0][2:]
              self.img, x = self.img.split(' ')
      

      【讨论】:

        猜你喜欢
        • 2012-07-09
        • 1970-01-01
        • 2018-01-07
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-11-07
        相关资源
        最近更新 更多