【问题标题】:How to keep a web crawler running?如何保持网络爬虫运行?
【发布时间】:2015-05-23 09:04:13
【问题描述】:

我想用 JS 编写自己的网络爬虫。我正在考虑使用 node.js 解决方案,例如 https://www.npmjs.com/package/js-crawler

目标是每 10 分钟进行一次“抓取” - 所以我希望我的抓取工具每 10 分钟从网站获取数据。

我知道我可以写一个无限循环,例如:

var keeRunning = true;
while (keepRunning) {
  // fetch data and process it every 10 minutes
}

如果我的电脑一直开着而且我在网站上,这可能会非常好。

但是,如果我关闭计算机,我可以想象它将不再工作。那么我应该考虑什么样的解决方案来保持脚本一直运行,即使在计算机关闭时也是如此?

【问题讨论】:

  • 或许使用网络服务器?
  • 您应该考虑创建一个由您的操作系统管理的服务
  • @Tasos K. 这将如何工作?如果我编写的页面有一个 while 循环,那么它只会在我访问该页面时运行。我不在它上面怎么运行?
  • 您希望每 10 分钟刷新一次什么样的数据?我怀疑他们会以这种频率注意到你,并且会阻止你 - 这太频繁了。我运行刮板,它们每天运行一次。
  • 一个简单的虚拟专用服务器(VPS)在这里很好。你可以在那里安装 Node,然后从 cron 运行你的爬虫。

标签: javascript node.js web-crawler


【解决方案1】:

使用CronJobber 安排何时运行您的脚本(每 x 分钟或在设定的时间等)并将您的应用部署到某个地方,以便将其在线托管在 服务器 永远不会关闭。有很多这样的解决方案,您可以免费托管您的节点服务器

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-10-09
    • 1970-01-01
    • 2013-07-14
    • 2012-01-14
    • 2011-10-17
    • 1970-01-01
    相关资源
    最近更新 更多