【发布时间】:2017-12-12 03:42:02
【问题描述】:
我是一名学生,我正在为一个项目收集品牌信息。我发现了这个名为 Kit:Kit Page 的网站,我想为品牌搜索。它有近 500 页,我在 Python 3 中编写了一个 Scrapy Spider,它遍历每个页面并将列表复制到字典中,但我无法确定 xpath 或 css 以实际获取列表信息。这是我的 items.py:
import scrapy
class KitcreatorwebscraperItem(scrapy.Item):
creator = scrapy.Field()
这是我的蜘蛛:
import scrapy
class KitCreatorSpider(scrapy.Spider):
name = "kitCreators"
pageNumber = 1
start_urls = [
'https://kit.com/brands?page=1',
]
while pageNumber <= 478:
newUrl = "https://kit.com/brands?page=" + str(pageNumber)
start_urls.append(newUrl)
pageNumber += 1
def parse(self, response):
for li in response.xpath('//div[@class="section group"][0]'):
它运行成功,但我一直无法编写一个 xpath 来获取我需要的数据。需要什么路径,如何在代码中实现?
【问题讨论】:
标签: python python-3.x xpath scrapy scrapy-spider