【发布时间】:2014-04-24 14:37:32
【问题描述】:
我有一个爬虫项目,它会报废一些网站并获取我上面的数据。我的蜘蛛生成了两个 JSON 文件,其中存储了所有被抓取的数据。
现在,我有一个烧瓶网络服务,它使用上述两个 JSON 文件来满足用户的请求。
我已经在 heroku 上部署了这个烧瓶网络服务并且工作正常。
我的问题是我每天在本地机器上运行 scrapy spider,然后手动更新 heroku 上的两个 JSON 文件。
我想自动化这个过程,scrapy 项目应该每天运行并且生成的 JSON 文件应该自动更新。
我在这里找到的解决方案是,如果将 scrapy spider 和 web 服务部署为单个项目,它将按我的意愿工作....但我不确定是否可以完成。
我搜索了有关部署scrapy 项目的主题,发现了scrapyd 甚至scrapy-heroku,但我不知道它们将如何提供帮助,或者我应该如何使用它们来满足我的特定需求。
【问题讨论】:
标签: python-2.7 heroku scrapy scrapyd