【发布时间】:2020-09-22 04:21:30
【问题描述】:
我有一个爬虫,它每 60 秒检查一次用 Nodejs 编写的 URL 列表。它不使用数据库,将一些项目存储在内存中,并且应该 24/7 运行。
托管此爬虫的正确解决方案是什么?
据我了解,AWS 是按秒付费的,我猜这会使 24/7 的流程变得相当昂贵?或者,也许我在这里遗漏了一些东西,AWS 文档非常令人困惑。
【问题讨论】:
-
你如何使用存储在内存中的项目?数据是否跨越多个调用?
-
它实际上只是从 URL 中获取数据(一些字符串,不多)并将它们存储在数组中。这些字符串很可能在每个循环中都被替换。