【发布时间】:2017-02-15 11:03:24
【问题描述】:
我正在尝试抓取此网页:
https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/
我尝试了不同的方法,但每次都会出现语法错误。我不太了解 Python 和 Scrapy。谁能帮帮我?
我的要求是:
-
在页面的页眉部分,有一张背景图片、一些描述和两张与产品相关的图片。
-
在产品范围部分有一些图片。我想浏览所有图片并抓取各个产品的详细信息。
结构是这样的:
到目前为止,这是我的代码:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "plumber"
start_urls = [
'https://www.grohe.com/in/7780/bathroom/bathroom-faucets/essence/',
]
def parse(self, response):
for divs in response.css('div#product-variants div.viewport div.workspace div.float-box'):
yield {
#response.css('div#product-variants a::attr(href)').extract()
'producturl': divs.css('a::attr(href)').extract(),
'imageurl': divs.css('a img::attr(src)').extract(),
'description' : divs.css('a div.text::text').extract() + divs.css('a span.nowrap::text').extract(),
next_page = producturl
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)
}
【问题讨论】:
标签: python web-scraping scrapy