在 Scrapy 中获取图像 URL答案

【问题标题】：Getting Image URL's in Scrapy在 Scrapy 中获取图像 URL
【发布时间】：2019-07-09 15:53:11
【问题描述】：

我对任何形式的编码都很陌生。我通过尝试使用 Scrapy 制作一个简单的爬虫来开始学习过程。它有点工作，但由于某种原因，我无法获得正确输出的图像 URL。它会吐出一些“data:image/gif;base64...”值，而不是 src 属性中的实际链接。我一直在寻找答案，但似乎找不到任何能给我明确答案的东西（另外我也可能不完全理解这个问题）。任何帮助将不胜感激。

def parse(self, response):
    for data in response.css("a.styles__link--2pzz4"):
        yield {
            'title': data.css('a::attr(title)').get(),
            'price': data.css('span::text').get(),
            'url': data.css('a::attr(href)').get(),
            'image url': data.css('img::attr(src)').get(),
        }

        next_page = response.css('li span a::attr(href)').get()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

【问题讨论】：

标签： python scrapy imageurl

【解决方案1】：

你能给我们你想抓取的链接吗？

有时网站会延迟加载并在其他img 属性中隐藏正常链接。例如data-original、data-src等。或者将图片的链接保存在jsons中，存储在页面上的脚本中。

【讨论】：

【解决方案2】：

您的网站可能使用数据 URI 将图像数据定义为 base64 编码的 blob。基本上，图像数据嵌入在 HTML 中，因此没有正常的 URL 可用。在这里阅读更多：https://css-tricks.com/data-uris/

【讨论】：