如何从s3中的文件夹中读取所有镶木地板文件到熊猫

【问题标题】：How to read all parquet files from a folder in s3 to pandas如何从s3中的文件夹中读取所有镶木地板文件到熊猫
【发布时间】：2021-01-31 22:42:32
【问题描述】：

如何使用 Python 3.x 将文件夹中的所有 parquet 文件（由 Spark 编写）读入 pandas DataFrame？由于版本冲突，最好不要pyarrow。

文件夹包含模式为 part-*.parquet 和 _SUCCESS 文件的 parquet 文件。

【问题讨论】：

标签： python-3.x pandas parquet

【解决方案1】：

您可以使用s3fs 列出文件并使用dask 读取文件，如下所示：

import s3fs
import dask.dataframe as dd

s3 = s3fs.S3FileSystem()

def get_files(input_folder):
    files = s3.ls(input_folder)
    files = ['s3://' + str(file) for file in files if not str(file).endswith('_SUCCESS')]
    return files

def read_files(input_folder):
    files = get_files(input_folder)
    df = dd.read_parquet(files)
    return df

df = read_files(input_folder)

【讨论】：