【问题标题】:Hosting a node web crawler?托管节点网络爬虫?
【发布时间】:2020-09-22 04:21:30
【问题描述】:

我有一个爬虫,它每 60 秒检查一次用 Nodejs 编写的 URL 列表。它不使用数据库,将一些项目存储在内存中,并且应该 24/7 运行。

托管此爬虫的正确解决方案是什么?

据我了解,AWS 是按秒付费的,我猜这会使 24/7 的流程变得相当昂贵?或者,也许我在这里遗漏了一些东西,AWS 文档非常令人困惑。

【问题讨论】:

  • 你如何使用存储在内存中的项目?数据是否跨越多个调用?
  • 它实际上只是从 URL 中获取数据(一些字符串,不多)并将它们存储在数组中。这些字符串很可能在每个循环中都被替换。

标签: node.js hosting


【解决方案1】:

该工具听起来足够轻巧(基于目的),所以我会选择无服务器解决方案来减少操作占用空间:所以选择 Lambda 函数或 ECS FarGate。以下是您希望支付的费用:

对于 Lambda,假设 512MB 运行 5 秒 @ 每 100 毫秒 0.0000008333: 60 次通话 * 24 小时 * 30 天 -> 43200 * 0.000000833350* ~= 每月 1.8 美元

https://s3.amazonaws.com/lambda-tools/pricing-calculator.html

对于最小占用空间的 Fargate:0.25 VCPU 和 0.5GB 内存: ((0.25 * 0.01239249) + (0.5 * 0.00136079)) * 24 * 30 ~= 每月 2.7 美元

请谨慎使用这些数字,只是草稿。这两个选项都相当便宜,但 Lambda 可能更容易使用,而且您指出您不需要内存中的项目来保持调用。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-12-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-12
    • 2012-08-01
    • 2015-05-12
    • 2013-03-29
    相关资源
    最近更新 更多