【问题标题】:How to read all parquet files from S3 using awswrangler in python如何在 python 中使用 awswrangler 从 S3 读取所有镶木地板文件
【发布时间】:2021-09-29 20:02:53
【问题描述】:

需要使用 ext .parquet 读取所有 parquet 文件

s3_path = "s3://buckte/table/files.parquet"

df = wr.s3.read_parquet(
    path=[s3_path]
)

,但仍然是一个错误:

Error occurred (404) when calling the HeadObject

【问题讨论】:

    标签: python aws-data-wrangler


    【解决方案1】:

    诀窍是只将一个字符串作为 s3 路径 和路径后缀

    s3_path = "s3://buckte/table"
    
    df = wr.s3.read_parquet(
        path=s3_path,
        path_suffix = ".snappy.parquet" ,
        use_threads =True
    )
    

    【讨论】:

      【解决方案2】:

      您收到此错误是因为找不到您尝试搜索的文件,或者您尝试读取的位置不存在。

      您可以指定要访问的文件的准确(和正确)位置。或者,如果你想从一个文件夹中读取所有 parquet 文件,你可以指定文件夹的名称,同时通过 suffix 属性指定扩展名(“.parquet”、“.csv”、“.json”等) .

      以下代码有助于读取文件夹“table”中的所有 parquet 文件。

      df = wr.s3.read_parquet(
          path = "s3://bucket/table/",
          path_suffix = ".parquet"
      )
      

      如果您想读取存储桶中的所有 parquet 文件,以下代码会有所帮助

      df = wr.s3.read_parquet(
          path = "s3://bucket/",
          path_suffix = ".parquet"
      )
      

      【讨论】:

        猜你喜欢
        • 2021-12-28
        • 2017-12-18
        • 2019-12-07
        • 2017-01-22
        • 2019-10-27
        • 1970-01-01
        • 2021-10-20
        • 2021-08-26
        • 2019-12-18
        相关资源
        最近更新 更多