【发布时间】:2015-03-04 10:03:52
【问题描述】:
有人可以向我解释一下Scrapy 中的暂停/恢复功能是如何工作的吗?
我使用的scrapy的版本是0.24.5
documentation 没有提供太多细节。
我有以下简单的蜘蛛:
class SampleSpider(Spider):
name = 'sample'
def start_requests(self):
yield Request(url='https://colostate.textbookrack.com/listingDetails?lst_id=1053')
yield Request(url='https://colostate.textbookrack.com/listingDetails?lst_id=1054')
yield Request(url='https://colostate.textbookrack.com/listingDetails?lst_id=1055')
def parse(self, response):
with open('responses.txt', 'a') as f:
f.write(response.url + '\n')
我正在使用:
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from scrapyproject.spiders.sample_spider import SampleSpider
spider = SampleSpider()
settings = get_project_settings()
settings.set('JOBDIR', '/some/path/scrapy_cache')
settings.set('DOWNLOAD_DELAY', 10)
crawler = Crawler(settings)
crawler.signals.connect(reactor.stop, signal=signals.spider_closed)
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run()
如您所见,我启用了 JOBDIR 选项,以便保存我的抓取状态。
我将DOWNLOAD_DELAY 设置为10 seconds,以便在处理请求之前停止蜘蛛。我本来希望下次我运行蜘蛛时,不会重新生成请求。事实并非如此。
我在我的 scrapy_cache 文件夹中看到一个名为 requests.queue 的文件夹。然而,那总是空的。
看起来 requests.seen 文件正在保存发出的请求(使用 SHA1 哈希),这很棒。但是,下次我运行蜘蛛时,请求会重新生成,并且(重复的)SHA1 哈希会添加到文件中。我在Scrapy 代码中跟踪了这个问题,看起来RFPDupeFilter 打开了带有“a+”标志的requests.seen 文件。所以它总是会丢弃文件中以前的值(至少这是我的 Mac OS X 上的行为)。
最后,关于蜘蛛状态,我可以从Scrapy 代码中看到,蜘蛛状态在蜘蛛关闭时被保存,并在它打开时被读回。但是,如果发生异常(例如,机器关闭),这不是很有帮助。我必须定期保存吗?
我在这里遇到的主要问题是:使用Scrapy 的常见做法是什么?预期抓取会停止/恢复多次(例如,抓取一个非常大的网站时)?
【问题讨论】:
-
看起来你在 python 脚本中运行了scrapy。你能定期停止反应器/刮擦吗?根据我过去的经验,
reactor.run()总是阻止脚本,所以我无法调用reactor.stop()。我想过在另一个线程中运行scrapy并向该线程发送终止信号,但我没有尝试过。
标签: scrapy