【发布时间】:2015-05-23 09:04:13
【问题描述】:
我想用 JS 编写自己的网络爬虫。我正在考虑使用 node.js 解决方案,例如 https://www.npmjs.com/package/js-crawler
目标是每 10 分钟进行一次“抓取” - 所以我希望我的抓取工具每 10 分钟从网站获取数据。
我知道我可以写一个无限循环,例如:
var keeRunning = true;
while (keepRunning) {
// fetch data and process it every 10 minutes
}
如果我的电脑一直开着而且我在网站上,这可能会非常好。
但是,如果我关闭计算机,我可以想象它将不再工作。那么我应该考虑什么样的解决方案来保持脚本一直运行,即使在计算机关闭时也是如此?
【问题讨论】:
-
或许使用网络服务器?
-
您应该考虑创建一个由您的操作系统管理的服务
-
@Tasos K. 这将如何工作?如果我编写的页面有一个 while 循环,那么它只会在我访问该页面时运行。我不在它上面怎么运行?
-
您希望每 10 分钟刷新一次什么样的数据?我怀疑他们会以这种频率注意到你,并且会阻止你 - 这太频繁了。我运行刮板,它们每天运行一次。
-
一个简单的虚拟专用服务器(VPS)在这里很好。你可以在那里安装 Node,然后从 cron 运行你的爬虫。
标签: javascript node.js web-crawler