【发布时间】:2015-06-30 13:11:09
【问题描述】:
我很难弄清楚 Scrapy 是如何工作的(或者我需要如何使用它)。 这个问题有点宽泛——更多的是为了理解。
我设置了一个 CrawlSpider 并输入了 6 个起始网址。
从这些(在每个起始 url 上抓取 24 项)中,我预计大约 144 行最终会出现在我的数据库中,但我现在只有 18 行。
所以我正在使用
def parse_start_url(self, response):
暂时避免与规则复杂化。
现在 Scrapy 应该获取这 6 个 url 并抓取它们,然后处理这些页面上的项目。
但相反,它似乎需要这 6 个网址,然后检查这些页面上的每个链接并首先关注这些链接 - 这可能吗?
Scrapy 是否只获取 URL 1,扫描所有链接并遵循所有允许的操作?
什么时候需要 URL 2?
【问题讨论】:
标签: web-crawler scrapy