【发布时间】:2010-11-24 19:15:04
【问题描述】:
我刚刚安装并运行了scrapy,它运行良好,但我有两个(菜鸟)问题。首先我应该说,我对爬虫和爬虫网站完全陌生。
你能限制抓取的链接数量吗?我有一个不使用分页的网站,只是在他们的主页上列出了很多链接(我抓取的)。当我真的只需要抓取前 10 个左右的链接时,我对抓取所有这些链接感到很不舒服。
如何同时运行多个蜘蛛?现在我正在使用命令
scrapy crawl example.com,但我也有用于 example2.com 和 example3.com 的蜘蛛。我想使用一个命令运行我所有的蜘蛛。这可能吗?
【问题讨论】:
-
一次抓取一个网站可能会让你被禁止访问该网站,这是一种不好/粗鲁的做法。 Scrapy 是并发的,因此它可以通过多个连接一次全部完成。查看超时设置的配置设置。
-
你知道我的第二个问题吗?似乎很明显我错过了一些东西。
-
一次运行多个蜘蛛使用:
scrapy crawl example.com example2.com example3.com