【问题标题】:Storing ndarrays into Parquet via uber/petastorm?通过 uber/petastorm 将 ndarray 存储到 Parquet 中?
【发布时间】:2025-12-16 11:45:01
【问题描述】:

是否可以通过uber/petastorm 将 N 维数组存储到 Parquet 中?

【问题讨论】:

    标签: python arrays matrix parquet petastorm


    【解决方案1】:

    是的。 Petastorm 在标准 Apache Parquet 格式之上提供了一个自定义编解码器层和一个模式扩展。 n 维数组/张量将被序列化为二进制 blob 字段。从用户的角度来看,这些看起来像原生类型,取决于您使用的环境(纯 Python/pyspark:numpy/array、Tensorflow 中的 tf.Tensor 或 PyTorch 中的 torch 张量)。

    这里有一些简单易学的例子:https://github.com/uber/petastorm/tree/master/examples/hello_world/petastorm_dataset

    【讨论】: