托管节点网络爬虫？

【问题标题】：Hosting a node web crawler?托管节点网络爬虫？
【发布时间】：2020-09-22 04:21:30
【问题描述】：

我有一个爬虫，它每 60 秒检查一次用 Nodejs 编写的 URL 列表。它不使用数据库，将一些项目存储在内存中，并且应该 24/7 运行。

托管此爬虫的正确解决方案是什么？

据我了解，AWS 是按秒付费的，我猜这会使 24/7 的流程变得相当昂贵？或者，也许我在这里遗漏了一些东西，AWS 文档非常令人困惑。

【问题讨论】：

【解决方案1】：

该工具听起来足够轻巧（基于目的），所以我会选择无服务器解决方案来减少操作占用空间：所以选择 Lambda 函数或 ECS FarGate。以下是您希望支付的费用：

对于 Lambda，假设 512MB 运行 5 秒 @ 每 100 毫秒 0.0000008333： 60 次通话 * 24 小时 * 30 天 -> 43200 * 0.000000833350* ~= 每月 1.8 美元

对于最小占用空间的 Fargate：0.25 VCPU 和 0.5GB 内存： ((0.25 * 0.01239249) + (0.5 * 0.00136079)) * 24 * 30 ~= 每月 2.7 美元

请谨慎使用这些数字，只是草稿。这两个选项都相当便宜，但 Lambda 可能更容易使用，而且您指出您不需要内存中的项目来保持调用。

【讨论】：