【问题标题】:"Error: ENOTFOUND" when making a lot of requests from Node.js request package从 Node.js 请求包发出大量请求时出现“错误:ENOTFOUND”
【发布时间】:2014-07-21 20:34:57
【问题描述】:

我在 Node.js 中运行一个脚本,它使用 request 包来帮助我发出 HTTP 请求。该脚本发出 100 到 1000 个请求,以便下载 PDF 并将它们放在我本地计算机上的某个文件夹中。当我只发出 100 个请求时,程序运行良好,所有 PDF 都显示在我的文件夹中,但是当我发出更多请求时,程序开始抛出此错误 (ENOTFOUND),并且抛出此错误的文件在文件夹中为空白。当我手动加载引发错误的链接时,它们工作正常(所以我知道这不是主机的问题),我可以下载这样的文件,但我想自动化它。

这是给出错误的函数位。我已经开始尝试将所有导致错误的链接推送到数组,但还没有解决问题。

  var year = process.argv[3] % 2000;
  var url  = yearURL[year];

  request(url, function(error, response, html){
        if(!error){
              var $ = cheerio.load(html, {xmlMode: true});

              $('link', 'item').each(function(){
                    var link = $(this).text();
                    PDFscrape(link);
              });
        }
  });

  function PDFscrape(link){
        request(link, function(error, response, html){
              if(!error){
                    var $ = cheerio.load(html);

                    var num = $('#ctl00_ContentPlaceHolder1_lblFile2', '#ctl00_ContentPlaceHolder1_pageDetails').text();
                    console.log('Document ' + num + ' has been loaded.');
                    var i = 1;
                    $('a', '#ctl00_ContentPlaceHolder1_lblAttachments2').each(function(){
                          var pdf = 'https://phila.legistar.com/' + $(this).attr('href');
                          AddPDF(pdf, num, i);
                          i++;
                    });
              }
        })
  }

  function AddPDF(link, file, i){
        var name = file;
        var fileName;
        if (year !== 100 && year !== -2){
              fileName = fs.createWriteStream(__dirname + '/pdfs/20' + year + '/' + file + '_' + i + '.pdf');
        } else if (year === 100){
              fileName = fs.createWriteStream(__dirname + '/pdfs/recent100/' + file + '_' + i + '.pdf');            
        } else if (year === -2){
              fileName = fs.createWriteStream(__dirname + '/pdfs/recent10/' + file + '_' + i + '.pdf');                        
        }

        request({
              uri: link,
              headers: {
                    'Host': 'phila.legistar.com',
                    'User-Agent': 'request'
              }
        }, function(err) {
              if (err){
                    var errLink = {url: link, file: name, num: i}
                    var count = errors.push(errLink);
                    console.log('--------- Error: ' + count + ' ---------');
              }
        }).pipe(fileName);
  }

抛出的错误是:

  stream.js:94
        throw er; // Unhandled stream error in pipe.
        ^
  Error: getaddrinfo ENOTFOUND
        at errnoException (dns.js:37:11)
        at Object.onanswer [as oncomplete] (dns.js:124:16)

注意:我正在处理该错误,但出现此错误的文档在不应该出现的情况下被管道传输为空白。我只是无法弄清楚为什么文件会给出错误。

【问题讨论】:

  • 您应该发布更多代码,并可能显示实际抛出的错误/跟踪(所以我们知道有问题的行是什么)。一个疯狂的猜测:整个事情都在一个循环中,file 指的是最后一个循环迭代? (只是猜测)
  • 当然。我将首先描述整个流程:我从一个包含 10 到 >1000 个链接的 RSS 提要开始。我正在抓取每个链接的提要,转到该 URL,然后在每个页面上传输 1 或 2 个 PDF。 PDF 的链接(在我从 RSS 提要中抓取的页面上)开始自动下载,它们不是在浏览器中加载 PDF 的链接。因此,我将下载内容通过管道传输到本地计算机上的文件夹中。
  • 我编辑了上面的帖子以显示完成的 AddPDF 函数,该函数会为每个 PDF 链接调用。如果我应该发布更多代码,请告诉我。

标签: javascript node.js request httprequest


【解决方案1】:

缺少一些分号,使用 != 而不是 !== 有点不雅,file 的双重含义使用不好,但没有什么可以解释您所看到的。我猜year 有点糟糕。在这里发布我的代码版本和一些 cmets。

(我在这里发帖而不是在评论中 b/c 不能在 cmets 中发布长代码):

function AddPDF(link, filename, i) {
    var file;
    if (year !== 100 && year !== -2) {
        // probably want "!==" rather than "=="
        file = fs.createWriteStream(__dirname + '/' + file + '_' + i + '.pdf');
    } else {
        // WHAT HAPPENS HERE?
        // what is "file", that is later piped to?
        // this may be your issue.
        // Where is this "year" coming from? Can you show relevant code?
    }

    request({
        uri: link,
        headers: {
            'Host': 'phila.legistar.com',
            'User-Agent': 'request'
        }
    }, function(err) {
        var errLink, count;
        if (err) {
            errLink = {url: link, file: filename, num: i};
            count = errors.push(errLink);
            console.log('--------- Error: ' + count + ' ---------');
        }
    }).pipe(file);
}

最后,你还没有提供实际的踪迹。

【讨论】:

  • 感谢 cmets。我已经更新了上面的代码。我认为是相关的代码。是的,由程序的一个输入选择,并索引一个数组以获取当年 RSS 提要的 URL。
  • 刚刚意识到我对 url 变量还有一些“双重含义”,但这不应该是问题的根源。虽然我正在更改它以确保。
  • 您能否也发布您看到的实际错误消息(跟踪)?
  • (附注:只在函数顶部声明一次var filename,并将其分配给各种“then”子句,而不重复 var 关键字;另外,@ 是什么987654328@,打错字了?)
  • 进一步看,num是什么?是否保证可以从中创建文件名?在下载每个 PDF 之前,将num 打印到控制台,以确保它形成一个合法的文件名。
【解决方案2】:

还好您发布了错误...您所拥有的似乎是 DNS 错误。主机名查找有时会失败。

我建议您打印所有的 URL,而不是实际下载它们。如果它们看起来都正常,那么这是一个临时的 DNS 问题。如果您有本地/关闭的 DNS 服务器,请检查其日志。否则,请尝试将 DNS 更改为可靠的 DNS,例如 8.8.8.8(Google 的 DNS),仅用于测试。

如果这也失败了,每次使用不同的 URL,那么它是在你的本地机器上的东西。一种解决方法是尝试/捕获它并重试有问题的 URL。

【讨论】:

  • 因为大多数链接都工作正常(通常大约 1/4 失败,尽管它可能会有所不同),我假设它与我正在抓取的服务器有关,而不是我的本地机器。您能解释一下再次更改为健壮的 DNS 吗?如果我知道问题不在于 URL 错误,而在于我尝试连接的服务器,那我还应该尝试吗?最后,我尝试将所有错误的 URL 推送到一个数组,然后遍历数组以重试所有 URL,但对异步 JavaScript 感到困惑。 try/catch 会更好吗?非常感谢您的帮助。
  • 这可能是您端的临时 DNS 问题,也可能是服务器将重定向返回到不存在的主机。首先将您的 DNS 服务器更改为 8.8.8.8,让我们看看情况如何。 (另外,您可以尝试告诉request 不要遵循重定向。某些 PDF 丢失但没有发生错误,那么这是来自服务器的错误重定向)。
  • 我实际上已经将我的 DNS 服务器列为 8.8.8.8,所以不是这样,告诉 request 不遵循重定向也无济于事。
猜你喜欢
  • 2018-04-02
  • 2021-04-22
  • 2021-05-10
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-01-06
相关资源
最近更新 更多