【问题标题】:Airflow on Docker missing Module "Google"Docker 上的气流缺少模块“Google”
【发布时间】:2021-07-11 20:19:42
【问题描述】:

我正在使用 puckel 气流图像并通过编辑包含 google 的 dockerfile 来升级气流版本,并在我构建时安装了 apache-airflow-providers-google 2.2.0 作为 python 依赖项和 google 或 gcs 作为气流依赖项容器使用

`docker build --rm --build-arg AIRFLOW_DEPS="google" --build-arg AIRFLOW_DEPS="google" --build-arg PYTHON_DEPS="httplib2==0.18.1" --build-arg PYTHON_DEPS="apache-airflow-providers-google==2.2.0" -t puckel/docker-airflow .`

我还将 python 包添加到下面列出的 requirements.txt 文件中,但是当我转到本地主机上的气流时,它仍然显示“Broken DAG:[/usr/local/airflow/dags/otherfolder/dag.py ] 没有名为‘google’的模块。”我该如何解决这个问题?

以下是我更改版本的dockerfile

# VERSION 1.10.9
# AUTHOR: Matthieu "Puckel_" Roisil
# DESCRIPTION: Basic Airflow container
# BUILD: docker build --rm -t puckel/docker-airflow .
# SOURCE: https://github.com/puckel/docker-airflow

FROM python:3.7-slim-buster
LABEL maintainer="Puckel_"

# Never prompt the user for choices on installation/configuration of packages
ENV DEBIAN_FRONTEND noninteractive
ENV TERM linux

# Airflow
ARG AIRFLOW_VERSION=1.10.14
ARG AIRFLOW_USER_HOME=/usr/local/airflow
ARG AIRFLOW_DEPS=""
ARG PYTHON_DEPS=""
ENV AIRFLOW_HOME=${AIRFLOW_USER_HOME}

# Define en_US.
ENV LANGUAGE en_US.UTF-8
ENV LANG en_US.UTF-8
ENV LC_ALL en_US.UTF-8
ENV LC_CTYPE en_US.UTF-8
ENV LC_MESSAGES en_US.UTF-8

# Disable noisy "Handling signal" log messages:
# ENV GUNICORN_CMD_ARGS --log-level WARNING

RUN set -ex \
    && buildDeps=' \
        freetds-dev \
        libkrb5-dev \
        libsasl2-dev \
        libssl-dev \
        libffi-dev \
        libpq-dev \
        git \
    ' \
    && apt-get update -yqq \
    && apt-get upgrade -yqq \
    && apt-get install -yqq --no-install-recommends \
        $buildDeps \
        freetds-bin \
        build-essential \
        default-libmysqlclient-dev \
        apt-utils \
        curl \
        rsync \
        netcat \
        locales \
    && sed -i 's/^# en_US.UTF-8 UTF-8$/en_US.UTF-8 UTF-8/g' /etc/locale.gen \
    && locale-gen \
    && update-locale LANG=en_US.UTF-8 LC_ALL=en_US.UTF-8 \
    && useradd -ms /bin/bash -d ${AIRFLOW_USER_HOME} airflow \
    && pip install -U pip setuptools wheel \
    && pip install pytz \
    && pip install pyOpenSSL \
    && pip install ndg-httpsclient \
    && pip install pyasn1 \
    && pip install apache-airflow[crypto,celery,postgres,hive,jdbc,mysql,ssh${AIRFLOW_DEPS:+,}${AIRFLOW_DEPS}]==${AIRFLOW_VERSION} \
    && pip install 'redis==3.2' \
    && if [ -n "${PYTHON_DEPS}" ]; then pip install ${PYTHON_DEPS}; fi \
    && apt-get purge --auto-remove -yqq $buildDeps \
    && apt-get autoremove -yqq --purge \
    && apt-get clean \
    && rm -rf \
        /var/lib/apt/lists/* \
        /tmp/* \
        /var/tmp/* \
        /usr/share/man \
        /usr/share/doc \
        /usr/share/doc-base

COPY script/entrypoint.sh /entrypoint.sh
COPY config/airflow.cfg ${AIRFLOW_USER_HOME}/airflow.cfg
COPY requirements.txt /requirements.txt

RUN chown -R airflow: ${AIRFLOW_USER_HOME}

EXPOSE 8080 5555 8793

USER airflow
WORKDIR ${AIRFLOW_USER_HOME}
ENTRYPOINT ["/entrypoint.sh"]
CMD ["webserver"]

以下是我的 docker compose 文件:

version: '3.7'
services:
    postgres:
        image: postgres:9.6
        environment:
            - POSTGRES_USER=airflow
            - POSTGRES_PASSWORD=airflow
            - POSTGRES_DB=airflow
        logging:
            options:
                max-size: 10m
                max-file: "3"

    webserver:
        image: puckel/docker-airflow:1.10.9
        restart: always
        depends_on:
            - postgres
        environment:
            - LOAD_EX=n
            - EXECUTOR=Local
        logging:
            options:
                max-size: 10m
                max-file: "3"
        volumes:
            - ./dags:/usr/local/airflow/dags
            - ./requirements.txt:/requirements.txt
            # - ./plugins:/usr/local/airflow/plugins
        ports:
            - "8080:8080"
        command: webserver
        healthcheck:
            test: ["CMD-SHELL", "[ -f /usr/local/airflow/airflow-webserver.pid ]"]
            interval: 30s
            timeout: 30s
            retries: 3
    python:
      image: python:rc-buster
  

以下是我的 requirements.txt 文件

httplib2==0.18.1
google==3.0.0
pandas==1.2.4
apache-airflow-providers-google==2.2.0

以下是dag中的相关代码:

import datetime
import logging
import dateutil
import pandas as pd
import numpy as np
from airflow import models, utils
from airflow.operators.python_operator import PythonOperator
from airflow.contrib.operators.bigquery_to_gcs import BigQueryToCloudStorageOperator
from airflow.operators.python_operator import BranchPythonOperator
from airflow.contrib.hooks.bigquery_hook import BigQueryHook
from airflow.contrib.operators.gcs_to_bq import GoogleCloudStorageToBigQueryOperator
from airflow.operators.dummy_operator import DummyOperator

from airflow.hooks.http_hook import HttpHook
from pandas.io.json import json_normalize
from pandas.errors import EmptyDataError
from pathlib import Path
from lz_warnings import *
from utils import task_fail_slack_alert
import warnings

【问题讨论】:

  • 请提供您的代码的最小可重现示例和确切的错误消息。 stackoverflow.com/help/how-to-ask
  • 我更新了,谢谢!另外,我包含了完整的代码,因为我不确定我可能遗漏了什么。
  • 但是您的 DAG 代码在哪里?错误在 DAG 中。
  • 再次更新。 Airflow 文档显示该运算符是 gcs 额外包“pip install 'apache-airflow[gcp]”的一部分,因此我尝试在构建时将其添加为依赖项。我已经尝试过 pip install 但我不确定在目录中的哪个位置执行它 - 从气流 bash?

标签: docker airflow


【解决方案1】:

要使用 GCP 相关功能,您必须安装 google extras。为此,请在 Dockerfile 中设置:

ARG AIRFLOW_DEPS="google"

然后重建 Docker 镜像并重启 docker-compose。

【讨论】:

  • 尝试按照我的建议编辑 Dockerfile 并从命令行中删除所有 --build-arg AIRFLOW_DEPS。
  • 我看到你说 Dockerfile 对不起我看错了!我试过这个,它仍然没有工作。我还尝试将我的 httplib2 移动到 dockerfile 并且它没有工作。它似乎只在我的 requirements.txt 文件中接受 httplib2。可以将 Airflow DEPS 添加到 requirements.txt 中吗?
  • 你能登录到气流容器并在那里运行python path_to_your_dag.py然后发布输出吗?查看完整的堆栈跟踪可能会有所帮助。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2022-01-18
  • 2021-10-02
  • 2015-01-08
  • 2015-01-26
  • 2014-12-27
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多