【发布时间】:2021-01-08 09:03:29
【问题描述】:
我在读取和处理的 S3 存储桶中有多个文本文件。因此,我在 Kedro 数据目录中定义了 PartitionedDataSet,如下所示:
raw_data:
type: PartitionedDataSet
path: s3://reads/raw
dataset: pandas.CSVDataSet
load_args:
sep: "\t"
comment: "#"
此外,我实现了这个solution 以通过环境变量(包括 AWS 密钥)从凭证文件中获取所有秘密。
当我使用 kedro run 在本地运行时,一切正常,但是当我构建 Docker 映像(使用 kedro-docker)并使用 kedro docker run 在 Docker 环境中运行管道并使用 --docker-args 选项提供所有环境变量时我收到以下错误:
Traceback (most recent call last):
File "/usr/local/bin/kedro", line 8, in <module>
sys.exit(main())
File "/usr/local/lib/python3.7/site-packages/kedro/framework/cli/cli.py", line 724, in main
cli_collection()
File "/usr/local/lib/python3.7/site-packages/click/core.py", line 829, in __call__
return self.main(*args, **kwargs)
File "/usr/local/lib/python3.7/site-packages/click/core.py", line 782, in main
rv = self.invoke(ctx)
File "/usr/local/lib/python3.7/site-packages/click/core.py", line 1259, in invoke
return _process_result(sub_ctx.command.invoke(sub_ctx))
File "/usr/local/lib/python3.7/site-packages/click/core.py", line 1066, in invoke
return ctx.invoke(self.callback, **ctx.params)
File "/usr/local/lib/python3.7/site-packages/click/core.py", line 610, in invoke
return callback(*args, **kwargs)
File "/home/kedro/kedro_cli.py", line 230, in run
pipeline_name=pipeline,
File "/usr/local/lib/python3.7/site-packages/kedro/framework/context/context.py", line 767, in run
raise exc
File "/usr/local/lib/python3.7/site-packages/kedro/framework/context/context.py", line 759, in run
run_result = runner.run(filtered_pipeline, catalog, run_id)
File "/usr/local/lib/python3.7/site-packages/kedro/runner/runner.py", line 101, in run
self._run(pipeline, catalog, run_id)
File "/usr/local/lib/python3.7/site-packages/kedro/runner/sequential_runner.py", line 90, in _run
run_node(node, catalog, self._is_async, run_id)
File "/usr/local/lib/python3.7/site-packages/kedro/runner/runner.py", line 213, in run_node
node = _run_node_sequential(node, catalog, run_id)
File "/usr/local/lib/python3.7/site-packages/kedro/runner/runner.py", line 221, in _run_node_sequential
inputs = {name: catalog.load(name) for name in node.inputs}
File "/usr/local/lib/python3.7/site-packages/kedro/runner/runner.py", line 221, in <dictcomp>
inputs = {name: catalog.load(name) for name in node.inputs}
File "/usr/local/lib/python3.7/site-packages/kedro/io/data_catalog.py", line 392, in load
result = func()
File "/usr/local/lib/python3.7/site-packages/kedro/io/core.py", line 213, in load
return self._load()
File "/usr/local/lib/python3.7/site-packages/kedro/io/partitioned_data_set.py", line 240, in _load
raise DataSetError("No partitions found in `{}`".format(self._path))
kedro.io.core.DataSetError: No partitions found in `s3://reads/raw`
注意:管道在 Docker 环境中工作正常,如果我将文件移动到某个本地目录,定义 PartitionedDataSet 并构建 Docker 映像并通过--docker-args提供环境变量
【问题讨论】:
-
Kedro 使用
fsspec库从您在 S3 中指定的位置读取文件,由于某种原因,fsspec无法在您配置的路径中找到任何数据。您能否确认以下内容:a) 路径构建正确且存储桶名称和公共密钥前缀有效,b) 该位置确实有一些文件,c) 您尚未配置filename_suffix您在目录中的分区数据集,d) 您作为环境变量传递的密钥是否有足够的权限从您的 S3 存储桶中读取数据? -
另外,如果您可以发布
kedro docker命令并在其中传递环境变量(显然键被截断),那就太好了 -
@DmitryDeryabin 感谢您的回复。 a)是的,我会说它们是因为对于目录中定义的数据集,我使用 context.io.load() 获得了带有分区 ID 的字典,这些字典位于指定的 s3 文件夹中,并且当我在 Docker 外部运行管道时,管道是在加载和处理数据的情况下正常执行。这也回答了b)(但我还是仔细检查了它并且文件在那里)并且还回答了d)。我已经在 Docker 之外完成了所有这些工作。对于 c),数据集的定义与上述问题一样,仅使用:类型、路径、数据集和这两个 load_args。
-
这是我使用的
kedro docker命令kedro docker run --docker-args="--env AWS_ACCESS_KEY_ID=XXXXXXX --env AWS_SECRET_ACCESS_KEY=XXXXXXX --env USER=XXXXXXX --env PASSWORD=XXXXXX --env SERVERNAME=XXXXXX --env PORT=XXX --env NAME=XXXX" -
@DmitryDeryabin 我发现了问题。
kedro docker run命令中缺少区域AWS_DEFAULT_REGION。