【发布时间】:2019-06-26 09:06:08
【问题描述】:
我有一个由分区 Parquet 文件组成的大型 Impala 数据库。 我直接使用 HDFS 将一个 Parquet 分区复制到本地磁盘。这个分区总共有 15GB,由许多文件组成,每个文件 10MB。我正在尝试使用带有 Pyarrow 引擎或 Pyarrow 的 Pandas 直接读取它,但它在内存中的大小使用超过 60GB 的 RAM,并且在使用所有内存之前它不会读取整个数据集。如此大的内存使用量可能是什么原因?
【问题讨论】:
-
文件的总大小是 15GB 吗?
-
是的,我复制的整个分区的大小,当然有很多罚款。
标签: pandas hdfs parquet impala pyarrow