【问题标题】:Managing multiple spiders with scrapy用scrapy管理多个蜘蛛
【发布时间】:2012-01-04 13:17:25
【问题描述】:

我正在创建一个聚合器,并从 scrapy 作为我的初始工具集开始。 一开始我只有几个蜘蛛,但随着项目的发展,随着我抓取越来越多的网站,我似乎可能有数百甚至上千个不同的蜘蛛。 管理这些蜘蛛的最佳方法是什么,因为有些网站只需要抓取一次,有些则需要更定期? 在处理如此多的网站时,scrapy 是否仍然是一个好工具,或者您会推荐一些其他技术。

【问题讨论】:

标签: python screen-scraping scrapy


【解决方案1】:

您可以查看项目scrapely,它来自scrapy 的创建者。但是,据我所知,它不适合解析包含javascript的网站(更准确地说,如果解析的数据不是由javascript生成的)。

【讨论】:

    猜你喜欢
    • 2015-11-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-11-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多