【问题标题】:azure datasource throwing error in Kedro datacatalogKedro 数据目录中的天蓝色数据源抛出错误
【发布时间】:2022-01-04 01:33:31
【问题描述】:

在 kedro 数据目录中配置 azure blob 存储数据集时遇到错误。

我在我的 catalog.yml 中定义了如下数据集:

brand_dataset:
  type: pandas.CSVDataSet
  filepath: "abfs://container/my_file.csv"
  credentials: my_creds
  load_args:
    sep:';'

尝试从 ipython 访问数据集时,遇到以下错误

DataSetError: 
unexpected unindent (core.py, line 160).
Failed to instantiate DataSet 'brand_dataset' of type `kedro.extras.datasets.pandas.csv_dataset.CSVDataSet`.

我关注了文档
https://kedro.readthedocs.io/en/stable/05_data/01_data_catalog.html
特别示例:15
不知道为什么会出错?
我正在 docker 容器内使用 kedro。

【问题讨论】:

    标签: azure-blob-storage kedro


    【解决方案1】:

    两个小问题:

    1. 您运行的是什么版本的 Kedro?在旧版本中,我们给出了无用的错误消息。
    2. 您是否在您的环境中安装了 pandas? Kedro 本身不附带 pandas - 我们不想强迫人们使用它,而是希望分发尽可能小的版本。我们在此处提供了安装 pandas 的说明:

    https://kedro.readthedocs.io/en/stable/04_kedro_project_setup/01_dependencies.html#workflow-dependencies

    我怀疑这是怎么回事,你需要这样做pip install "kedro[pandas]"

    【讨论】:

    • 我正在使用 kedro 版本 0.17.5。我使用requriements.txt 安装了熊猫。当我将 adlfs 库添加到我的 docker 映像中的 requirements.txt 时,这个问题确实发生了。但是我可以稍后在容器内 pip install adlfs 并且 kedro 工作正常。我需要 adlfs 来处理 azure blob 存储源文件
    猜你喜欢
    • 2018-10-25
    • 2020-06-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-07-15
    • 2021-02-28
    • 1970-01-01
    相关资源
    最近更新 更多