抓取图片链接的问题答案

【问题标题】：Troubles with crawling an image link抓取图片链接的问题
【发布时间】：2019-11-10 19:12:20
【问题描述】：

我建立了一个爬虫来爬取 www.ebay-kleinanzeigen.de 上的信息，但是除了给定的标题、价格、描述和链接之外，我没有得到所提供房屋图片的链接。

我已经尝试使用不同的属性，例如 attr(href)、attr(src)、attr(data-imgsrc)...但似乎没有任何效果。我只得到了 div 容器，我什至无法拆分这个 div 容器的内容。

导入...

[...]

start_urls = [
    "https://www.ebay-kleinanzeigen.de/s-haus-kaufen/anzeige:angebote/c208"
]

def parse(self, response):

    items = KleinanzeigenItem()

    jede_immobilie = response.css("li.ad-listitem.lazyload-item")

    for immobilie in jede_immobilie:

        title = immobilie.css("a.ellipsis::text").extract()
        preis = immobilie.css("aditem-main, strong::text").extract()
        quadratmeter = immobilie.css(".tag-small:nth-child(1)::text").extract()
        description = immobilie.css(".text-module-begin+ p::text").extract()
        image = immobilie.css("div.srpimagebox, img::attr(src)").extract()
        link_immobilie = immobilie.css("a.ellipsis").xpath("@href").extract()

        items["title"] = title
        items["preis"] = preis
        items["quadratmeter"] = quadratmeter
        items["description"] = description
        items["image"] = image
        items["link_immobilie"] = "https://www.ebay-kleinanzeigen.de"+link_immobilie[0]

        yield items

对于变量“图像”，我希望获得 jpg 的链接，但我得到以下结果：

{[...]
 'image': ['<div class="imagebox srpimagebox" '
           'data-href="/s-anzeige/einfamilienhaus-freistehend-in-zentraler-lage/1252437848-208-7416" '
           'data-imgsrc="https://i.ebayimg.com/00/s/MTIwMFgxNjAw/z/CBYAAOSwWI1dyD6R/$_2.JPG" '
           'data-imgsrcretina="https://i.ebayimg.com/00/s/MTIwMFgxNjAw/z/CBYAAOSwWI1dyD6R/$_35.JPG '
           '2x" data-imgtitle="Einfamilienhaus freistehend in zentraler Lage '
           'Bayern - Großostheim Vorschau">\n'
           '                                    </div>'],
 [...]}

所以我不确定如何解决这个问题，因为 div-container 对我来说信息太多。太奇怪了，我无法操纵这个字符串/列表。

例如我尝试获取此列表的元素[0]，然后尝试使用拆分，但没有成功。

感谢您的反馈！ :)

KR，马库斯

【问题讨论】：

标签： python css image scrapy web-crawler

【解决方案1】：

图像的链接位于所选 div 元素的两个属性中。即 - @data-imgsrcretina 和 @data-imgsrc。那么，你为什么不从那里挑选它。

例如，以下 xpath 对我有用。

>> image = immobilie.css("div.srpimagebox").xpath("@data-imgsrc").extract()
>> image = immobilie.css("div.srpimagebox").xpath("@data-imgsrcretina").extract() 
# take either of the above.

输出 -

>> image
 [u'https://i.ebayimg.com/00/s/MTAyNFg3Njg=/z/IDUAAOSwimZdcQuw/$_2.JPG']

【讨论】：