Scrapy Django限制链接爬网答案

【问题标题】：Scrapy Django Limit links crawledScrapy Django限制链接爬网
【发布时间】：2010-11-24 19:15:04
【问题描述】：

我刚刚安装并运行了scrapy，它运行良好，但我有两个（菜鸟）问题。首先我应该说，我对爬虫和爬虫网站完全陌生。

你能限制抓取的链接数量吗？我有一个不使用分页的网站，只是在他们的主页上列出了很多链接（我抓取的）。当我真的只需要抓取前 10 个左右的链接时，我对抓取所有这些链接感到很不舒服。
如何同时运行多个蜘蛛？现在我正在使用命令scrapy crawl example.com，但我也有用于 example2.com 和 example3.com 的蜘蛛。我想使用一个命令运行我所有的蜘蛛。这可能吗？

【问题讨论】：

【解决方案1】：

对于#1：不要使用规则属性来提取链接和关注，在解析函数中编写规则并产生或返回请求对象。

对于 #2：试试 scrapyd

【讨论】：

【解决方案2】：

使用 CloseSpider 应该允许您指定此类限制。

还没有尝试过，因为我不需要它。看起来您可能还必须在设置文件中启用作为扩展名（请参见同一页顶部）。

【讨论】：