【发布时间】:2017-10-21 16:26:39
【问题描述】:
我正在尝试获取要在SitemapSpider 中抓取的网址数量。我试图覆盖start_requests 方法,但它打印出0。我有一个sitemap_url,其中包含数千个网址。我想统计一下这些网址。
这是我尝试过的,但我认为站点地图中的 URL 不在 start_urls 中。
class MainSpider(SitemapSpider):
name = 'main_spider'
allowed_domains = ['...']
sitemap_urls = ['http://.../sitemap.xml']
def start_requests(self):
r = super(MainSpider, self).start_requests()
self.urls_count = len(self.start_urls)
print self.urls_count
return r
您知道如何获取号码吗?
【问题讨论】:
标签: python python-2.7 scrapy web-crawler