【问题标题】:How to read all parquet files from a folder in s3 to pandas如何从s3中的文件夹中读取所有镶木地板文件到熊猫
【发布时间】:2021-01-31 22:42:32
【问题描述】:

如何使用 Python 3.x 将文件夹中的所有 parquet 文件(由 Spark 编写)读入 pandas DataFrame?由于版本冲突,最好不要pyarrow

文件夹包含模式为 part-*.parquet_SUCCESS 文件的 parquet 文件。

【问题讨论】:

    标签: python-3.x pandas parquet


    【解决方案1】:

    您可以使用s3fs 列出文件并使用dask 读取文件,如下所示:

    import s3fs
    import dask.dataframe as dd
    
    s3 = s3fs.S3FileSystem()
    
    def get_files(input_folder):
        files = s3.ls(input_folder)
        files = ['s3://' + str(file) for file in files if not str(file).endswith('_SUCCESS')]
        return files
    
    def read_files(input_folder):
        files = get_files(input_folder)
        df = dd.read_parquet(files)
        return df
    
    df = read_files(input_folder)
    

    【讨论】:

      猜你喜欢
      • 2022-11-24
      • 2019-05-27
      • 2018-12-01
      • 2017-01-22
      • 1970-01-01
      • 2021-12-28
      • 2017-12-16
      • 2019-12-07
      • 2022-11-03
      相关资源
      最近更新 更多