【问题标题】:Scrapy Django Limit links crawledScrapy Django限制链接爬网
【发布时间】:2010-11-24 19:15:04
【问题描述】:

我刚刚安装并运行了scrapy,它运行良好,但我有两个(菜鸟)问题。首先我应该说,我对爬虫和爬虫网站完全陌生。

  1. 你能限制抓取的链接数量吗?我有一个不使用分页的网站,只是在他们的主页上列出了很多链接(我抓取的)。当我真的只需要抓取前 10 个左右的链接时,我对抓取所有这些链接感到很不舒服。

  2. 如何同时运行多个蜘蛛?现在我正在使用命令scrapy crawl example.com,但我也有用于 example2.com 和 example3.com 的蜘蛛。我想使用一个命令运行我所有的蜘蛛。这可能吗?

【问题讨论】:

  • 一次抓取一个网站可能会让你被禁止访问该网站,这是一种不好/粗鲁的做法。 Scrapy 是并发的,因此它可以通过多个连接一次全部完成。查看超时设置的配置设置。
  • 你知道我的第二个问题吗?似乎很明显我错过了一些东西。
  • 一次运行多个蜘蛛使用:scrapy crawl example.com example2.com example3.com

标签: python django scrapy


【解决方案1】:

对于#1:不要使用规则属性来提取链接和关注,在解析函数中编写规则并产生或返回请求对象。

对于 #2:试试 scrapyd

【讨论】:

    【解决方案2】:

    感谢 Shane,这里是 https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU

    使用 CloseSpider 应该允许您指定此类限制。

    http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

    还没有尝试过,因为我不需要它。看起来您可能还必须在设置文件中启用作为扩展名(请参见同一页顶部)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-17
      • 1970-01-01
      • 2023-03-21
      • 2013-11-30
      • 2021-10-09
      • 1970-01-01
      相关资源
      最近更新 更多