【问题标题】:Puppeteer fails in docker container: "browser has disconnected!"Puppeteer 在 docker 容器中失败:“浏览器已断开连接!”
【发布时间】:2019-02-22 23:48:01
【问题描述】:

我编写了一个脚本,它使用 Puppeteer v1.12.2 从网页中获取一些信息。它在我的本地机器(Ubuntu 18.04)上运行,节点为 v10.15.1,它在我的机器上运行在带有node:10-slim 的 docker 容器中。

我将映像推送到 Google Cloud 容器注册表,然后将其拉到 Google Compute Engine 机器 (Ubuntu 18.04) 上,当 Puppeteer 加载页面时它失败了:

Error: Navigation failed because browser has disconnected!
at CDPSession.LifecycleWatcher._eventListeners.helper.addEventListener (/www/node_modules/puppeteer/lib/LifecycleWatcher.js:47:107)
at CDPSession.emit (events.js:182:13)
at CDPSession._onClosed (/www/node_modules/puppeteer/lib/Connection.js:215:10)
at Connection._onClose (/www/node_modules/puppeteer/lib/Connection.js:138:15)
at WebSocketTransport._ws.addEventListener.event (/www/node_modules/puppeteer/lib/WebSocketTransport.js:45:22)
at WebSocket.onClose (/www/node_modules/ws/lib/event-target.js:124:16)
at WebSocket.emit (events.js:182:13)
at WebSocket.emitClose (/www/node_modules/ws/lib/websocket.js:180:10)
at Socket.socketOnClose (/www/node_modules/ws/lib/websocket.js:805:15)
at Socket.emit (events.js:182:13)
  -- ASYNC --
at Frame.<anonymous> (/www/node_modules/puppeteer/lib/helper.js:108:27)
at Page.goto (/www/node_modules/puppeteer/lib/Page.js:662:49)
at Page.<anonymous> (/www/node_modules/puppeteer/lib/helper.js:109:23)
at scrapeLicence (/www/scrapeLicenceById.js:30:33)
at process._tickCallback (internal/process/next_tick.js:68:7)

我已经看到其他关于此错误“导航失败,因为浏览器已断开连接!”的讨论通过添加awaits 来修复它,但我已经awaiting 我在浏览器/页面对象上调用的每个方法,所以我在没有回调的情况下按程序运行整个脚本。它在我的本地计算机上按预期运行,但不在 GCE 实例上。为什么它在不同的机器上会有不同的表现?是什么导致浏览器“断开连接”?


更新:这是有错误的脚本的最小复制:

scrape.js

const puppeteer = require('puppeteer');
const verbose = true;

async function run() {
    try {
        const browser = await puppeteer.launch({
            args: [
                '--no-sandbox',
                '--disable-setuid-sandbox',
                '--disable-dev-shm-usage',
                '--disable-accelerated-2d-canvas',
                '--disable-gpu',
                '--window-size=1920x1080',
            ],
        });

        const pageUrl = 'https://google.com';

        const page = await browser.newPage();
        page.once('load', () => {
            if (verbose) console.log(`Page loaded.`);
        });

        await page.setRequestInterception(true);

        await page.setViewport({ width: 1280, height: 800 });

        const response = await page.goto(pageUrl, {
            timeout: 25000,
            waitUntil: 'networkidle2',
        });
        if (response._status >= 400) {
            console.error('Error from server:', response);
            throw new Error('Error response from server');
        }

        console.log('page ok?');

        await browser.close();
    } catch (e) {
        console.error(e);
        process.exit(1);
    }
}

run();

这是我用来构建映像的 Dockerfile

FROM node:10-slim

# -------- install chrome ----------
# See https://crbug.com/795759
RUN apt-get update && apt-get install -yq libgconf-2-4

RUN apt-get update && apt-get install -y wget --no-install-recommends \
    && wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add - \
    && sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main">> /etc/apt/sources.list.d/google.list' \
    && apt-get update \
    && apt-get install -y google-chrome-stable fonts-ipafont-gothic fonts-wqy-zenhei fonts-thai-tlwg fonts-kacst ttf-freefont \
      --no-install-recommends \
    && rm -rf /var/lib/apt/lists/* \
    && apt-get purge --auto-remove -y curl \
    && rm -rf /src/*.deb

ADD https://github.com/Yelp/dumb-init/releases/download/v1.2.0/dumb-init_1.2.0_amd64 /usr/local/bin/dumb-init
RUN chmod +x /usr/local/bin/dumb-init

# ------------------

# Set work directory to /www
WORKDIR /www

# Install app dependencies
COPY package.json package.json
RUN yarn install

# Copy script files
COPY . .

# Runs "/usr/bin/dumb-init -- node scrape.js"
ENTRYPOINT ["dumb-init", "--"]
CMD ["node", "scrape.js"]

【问题讨论】:

  • GCE 的配置是什么?也许内存和存储不同,也许某个地方的权限不同?
  • 另外,你能分享一下你的代码吗?
  • 当然,我用脚本示例和我正在使用的 Dockerfile 更新了我的问题。我试图在服务器上运行脚本,你认为内存可能是个问题吗? (会不会有这样的结果,浏览器会在没有通知的情况下断开连接?)
  • 我通过将这一行添加到puppeteer.launch 选项使其工作:executablePath: 'google-chrome', 但我仍然对它在我的计算机上的工作方式感到非常困惑,如果它不工作的话我尝试过的所有其他环境......
  • 你能澄清你的意思吗?我仍然对发生的事情感到困惑,为什么这条线似乎可以解决它!

标签: docker puppeteer google-chrome-headless


【解决方案1】:

这与影响this answer 的问题相同。

基本上 puppeteer 1.12.2 安装了 chromium 的开发版本 73,它有一些小错误会阻止它加载某些网站/脚本和/或阻止它在特定平台上运行。

解决方案是使用以前的 puppeteer 版本 1.11.0,或者使用其他稳定的 chrome 版本。

这就是executablePath: 'google-chrome' 与众不同的原因。它使用的是稳定版本,而不是提供的版本。

【讨论】:

  • 感谢您的澄清!知道为什么容器在我的本地计算机上工作但在其他地方没有工作吗?
  • 在写答案之前,我在本地和服务器上都遇到了问题。这可能是由于我提到的版本问题。如果您遵守删除 now_modules 文件夹并尝试使用上面指定的版本,您可能会在服务器和计算机上看到差异。但是,如果答案足够,您可以将其标记为已接受。
  • 这也为我解决了。降级到 Puppeteer 1.11.0,我在 CircleCI 中的page.click 问题消失了。感谢您的帮助。
  • 这个答案肯定解决了我遇到的问题,但我也在问为什么它在我的本地 docker 上工作,而不是在其他任何地方工作。在一篇文章中提出两个不同的问题是我的错。我会接受这个作为答案,但我也欢迎关于其他问题的任何额外反馈!我想知道它是否与 docker 在某处缓存一个层有关?我没有在问题中提到,但是 dockerfile 也复制了 yarn.lock 文件,所以 node_modules 也应该是一样的。
  • 我在问那个确切的问题。可能是因为缓存造成的,您可以通过删除 node_modules 和 yarn.lock 来验证
猜你喜欢
  • 2020-11-03
  • 1970-01-01
  • 1970-01-01
  • 2019-08-01
  • 2018-11-22
  • 2021-03-23
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多