【发布时间】:2018-03-29 17:23:09
【问题描述】:
我正在使用request 和cheerio 来解析nodejs 中的一些网页。我们每天这样做超过 20 次,因此我们在加载对解析无用的图像和 css 内容时损失了很多带宽。
我使用了一些这样的代码:
request(url, function (error, response, html) {
if (!error && response.statusCode == 200) {
var $ = cheerio.load(html);
$('.n-item').each(function(i, element){
//do something
});
}
});
1-我想知道 request 加载图像/内容并可能丢失我的服务器带宽是正确的吗?
2-告诉我一个防止加载图像/内容的解决方案
谢谢
【问题讨论】:
-
一种开箱即用的方法是在您的节点应用程序和您正在访问的网络服务器之间放置类似 nginx 的东西。然后让 nginx 为任何图像请求返回一个小图像。
-
是的,请求只加载url,不加载相关资产。
标签: node.js parsing web-scraping request cheerio