【发布时间】:2021-01-31 22:42:32
【问题描述】:
如何使用 Python 3.x 将文件夹中的所有 parquet 文件(由 Spark 编写)读入 pandas DataFrame?由于版本冲突,最好不要pyarrow。
文件夹包含模式为 part-*.parquet 和 _SUCCESS 文件的 parquet 文件。
【问题讨论】:
标签: python-3.x pandas parquet
如何使用 Python 3.x 将文件夹中的所有 parquet 文件(由 Spark 编写)读入 pandas DataFrame?由于版本冲突,最好不要pyarrow。
文件夹包含模式为 part-*.parquet 和 _SUCCESS 文件的 parquet 文件。
【问题讨论】:
标签: python-3.x pandas parquet
您可以使用s3fs 列出文件并使用dask 读取文件,如下所示:
import s3fs
import dask.dataframe as dd
s3 = s3fs.S3FileSystem()
def get_files(input_folder):
files = s3.ls(input_folder)
files = ['s3://' + str(file) for file in files if not str(file).endswith('_SUCCESS')]
return files
def read_files(input_folder):
files = get_files(input_folder)
df = dd.read_parquet(files)
return df
df = read_files(input_folder)
【讨论】: