【发布时间】:2020-06-26 08:49:56
【问题描述】:
我正在尝试将一些 parquet 文件从目录加载到 Python 中以用于 tensorflow/pytorch。
文件太大,无法通过 pyarrow.parquet 函数加载
import pyarrow.parquet as pq
dataset = pq.ParquetDataset('dir')
table = dataset.read()
这给出了out of memory error。
我也尝试过使用petastorm,但这不适用于make_reader(),因为它不是petastorm 类型。
with make_batch_reader('dir') as reader:
dataset = make_petastorm_dataset(reader)
当我使用make_batch_reader() 和make_petastorm_dataset(reader) 时,它再次给出了zip not iterable error 或类似的东西。
我不确定如何将文件加载到 Python 中以进行 ML 训练。 一些快速帮助将不胜感激。
谢谢 扎什
【问题讨论】:
标签: python-3.x tensorflow machine-learning pytorch parquet