如何在 python 中使用 awswrangler 从 S3 读取所有镶木地板文件答案

【问题标题】：How to read all parquet files from S3 using awswrangler in python如何在 python 中使用 awswrangler 从 S3 读取所有镶木地板文件
【发布时间】：2021-09-29 20:02:53
【问题描述】：

需要使用 ext .parquet 读取所有 parquet 文件

s3_path = "s3://buckte/table/files.parquet"

df = wr.s3.read_parquet(
    path=[s3_path]
)

，但仍然是一个错误：

Error occurred (404) when calling the HeadObject

【问题讨论】：

标签： python aws-data-wrangler

【解决方案1】：

诀窍是只将一个字符串作为 s3 路径和路径后缀

s3_path = "s3://buckte/table"

df = wr.s3.read_parquet(
    path=s3_path,
    path_suffix = ".snappy.parquet" ,
    use_threads =True
)

【讨论】：

【解决方案2】：

您收到此错误是因为找不到您尝试搜索的文件，或者您尝试读取的位置不存在。

您可以指定要访问的文件的准确（和正确）位置。或者，如果你想从一个文件夹中读取所有 parquet 文件，你可以指定文件夹的名称，同时通过 suffix 属性指定扩展名（“.parquet”、“.csv”、“.json”等） .

以下代码有助于读取文件夹“table”中的所有 parquet 文件。

df = wr.s3.read_parquet(
    path = "s3://bucket/table/",
    path_suffix = ".parquet"
)

如果您想读取存储桶中的所有 parquet 文件，以下代码会有所帮助

df = wr.s3.read_parquet(
    path = "s3://bucket/",
    path_suffix = ".parquet"
)

【讨论】：