【发布时间】:2021-05-05 23:03:21
【问题描述】:
最近我接手了一个 Django 项目,它的一个组件是 Scrapy scrapprs(很多 - 核心功能)。值得补充的是,scrapers 只需每天多次向数据库提供数据,而 django 网络应用程序正在使用这些数据。
__Scraper__s 可以直接访问 Django 模型,但在我看来不是最好的主意(混合职责 - django 应该充当网络应用程序,而不是 scraper,不是吗?) .例如,在这种拆分之后,scrapers 可以在无服务器的情况下运行,从而节省资金并且只在需要时才生成。
我至少将它视为架构中的独立组件。但是,如果我将 scrapers 与 Django 网站分开,那么我也需要在那里填充数据库 - 并且在 Django webapp 或抓取应用程序中更改模型将需要在第二个应用程序中进行调整。
我还没有看到关于拆分这些应用程序的真正文章。
这里有哪些最佳做法?值得拆分吗?您将如何组织部署到云解决方案(例如 AWS)?
谢谢
【问题讨论】:
-
仅供参考,它是 scrape(和 scrape、scraped、scrape)而不是 scrapper
标签: python django web-scraping architecture scrapy