【发布时间】:2014-07-21 20:34:57
【问题描述】:
我在 Node.js 中运行一个脚本,它使用 request 包来帮助我发出 HTTP 请求。该脚本发出 100 到 1000 个请求,以便下载 PDF 并将它们放在我本地计算机上的某个文件夹中。当我只发出 100 个请求时,程序运行良好,所有 PDF 都显示在我的文件夹中,但是当我发出更多请求时,程序开始抛出此错误 (ENOTFOUND),并且抛出此错误的文件在文件夹中为空白。当我手动加载引发错误的链接时,它们工作正常(所以我知道这不是主机的问题),我可以下载这样的文件,但我想自动化它。
这是给出错误的函数位。我已经开始尝试将所有导致错误的链接推送到数组,但还没有解决问题。
var year = process.argv[3] % 2000;
var url = yearURL[year];
request(url, function(error, response, html){
if(!error){
var $ = cheerio.load(html, {xmlMode: true});
$('link', 'item').each(function(){
var link = $(this).text();
PDFscrape(link);
});
}
});
function PDFscrape(link){
request(link, function(error, response, html){
if(!error){
var $ = cheerio.load(html);
var num = $('#ctl00_ContentPlaceHolder1_lblFile2', '#ctl00_ContentPlaceHolder1_pageDetails').text();
console.log('Document ' + num + ' has been loaded.');
var i = 1;
$('a', '#ctl00_ContentPlaceHolder1_lblAttachments2').each(function(){
var pdf = 'https://phila.legistar.com/' + $(this).attr('href');
AddPDF(pdf, num, i);
i++;
});
}
})
}
function AddPDF(link, file, i){
var name = file;
var fileName;
if (year !== 100 && year !== -2){
fileName = fs.createWriteStream(__dirname + '/pdfs/20' + year + '/' + file + '_' + i + '.pdf');
} else if (year === 100){
fileName = fs.createWriteStream(__dirname + '/pdfs/recent100/' + file + '_' + i + '.pdf');
} else if (year === -2){
fileName = fs.createWriteStream(__dirname + '/pdfs/recent10/' + file + '_' + i + '.pdf');
}
request({
uri: link,
headers: {
'Host': 'phila.legistar.com',
'User-Agent': 'request'
}
}, function(err) {
if (err){
var errLink = {url: link, file: name, num: i}
var count = errors.push(errLink);
console.log('--------- Error: ' + count + ' ---------');
}
}).pipe(fileName);
}
抛出的错误是:
stream.js:94
throw er; // Unhandled stream error in pipe.
^
Error: getaddrinfo ENOTFOUND
at errnoException (dns.js:37:11)
at Object.onanswer [as oncomplete] (dns.js:124:16)
注意:我正在处理该错误,但出现此错误的文档在不应该出现的情况下被管道传输为空白。我只是无法弄清楚为什么文件会给出错误。
【问题讨论】:
-
您应该发布更多代码,并可能显示实际抛出的错误/跟踪(所以我们知道有问题的行是什么)。一个疯狂的猜测:整个事情都在一个循环中,
file指的是最后一个循环迭代? (只是猜测) -
当然。我将首先描述整个流程:我从一个包含 10 到 >1000 个链接的 RSS 提要开始。我正在抓取每个链接的提要,转到该 URL,然后在每个页面上传输 1 或 2 个 PDF。 PDF 的链接(在我从 RSS 提要中抓取的页面上)开始自动下载,它们不是在浏览器中加载 PDF 的链接。因此,我将下载内容通过管道传输到本地计算机上的文件夹中。
-
我编辑了上面的帖子以显示完成的 AddPDF 函数,该函数会为每个 PDF 链接调用。如果我应该发布更多代码,请告诉我。
标签: javascript node.js request httprequest