【发布时间】:2020-03-11 11:54:25
【问题描述】:
我正在创建一个爬虫来获取产品信息和产品评论,并从特定类别导出到 csv 文件。例如,我需要从裤子类别中获取所有信息,所以我的爬取从那里开始。
我可以从那里轻松提取每个产品的链接。但随后我需要爬虫打开该链接,获取每个产品所需的所有信息。我还需要它来获取产品的所有评论,但问题是评论也有分页。
我从这里开始:
类SheinSpider(scrapy.Spider):
name = "shein_spider"
start_urls = [
"https://www.shein.com/Men-Pants-c-1978.html?icn=men-pants&ici=www_tab02navbar02menu01dir06&scici=navbar_3~~tab02navbar02menu01dir06~~2_1_6~~real_1978~~~~0~~0"
]
def parse(self, response):
for item in response.css('.js-good'):
yield {"product_url": item.css('.category-good-name a::attr(href)').get()}
我知道如何解析目录列表中的信息,但不知道如何让爬虫跟随列表中的每个链接。
【问题讨论】:
标签: parsing scrapy web-crawler