【发布时间】:2017-03-07 09:12:43
【问题描述】:
我正在使用脚本文件在 scrapy 项目中运行蜘蛛,并且蜘蛛正在记录爬虫输出/结果。但是我想在某些函数中使用该脚本文件中的蜘蛛输出/结果。我不想将输出/结果保存在任何文件或数据库中。 这是从https://doc.scrapy.org/en/latest/topics/practices.html#run-from-script获取的脚本代码
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
from scrapy.utils.project import get_project_settings
configure_logging({'LOG_FORMAT': '%(levelname)s: %(message)s'})
runner = CrawlerRunner(get_project_settings())
d = runner.crawl('my_spider')
d.addBoth(lambda _: reactor.stop())
reactor.run()
def spider_output(output):
# do something to that output
如何在“spider_output”方法中获取蜘蛛输出。可以获得输出/结果。
【问题讨论】:
标签: python scrapy web-crawler twisted scrapy-spider