【问题标题】:Is there a Parquet equivalent for Python?Python 是否有 Parquet 等价物?
【发布时间】:2021-03-29 01:57:22
【问题描述】:

我刚刚发现Parquet,它满足了我的“大”数据处理/(本地)存储需求:

  • 比关系型数据库更快,后者旨在通过网络运行(产生开销),只是不如为本地存储设计的解决方案快
  • 与 JSON 或 CSV 相比:非常适合将数据高效地存储到类型中(而不是所有内容都是字符串),并且可以比 JSON 或 CSV 更动态地从文件中读取特定块

但令我沮丧的是,虽然 Node.js 有一个功能齐全的库,the only Parquet lib for Python 似乎确实是事半功倍:

parquet-python 是 parquet 格式的纯 python 实现(目前仅支持读取)......并非 parquet 格式的所有部分都已实现或测试,例如嵌套数据

那是什么?有没有比 Python 已经支持的 Parquet 更好的东西来降低开发支持它的库的兴趣?有没有比较接近的选择?

【问题讨论】:

标签: python parquet


【解决方案1】:

实际上,您可以使用 pandas 读写 parquet,这通常用于数据作业(不是大数据上的 ETL)。为了处理 parquet pandas,请使用两个常见的包:

pyarrow 是一个跨平台的工具,为内存提供列格式。 Parquet 也是一种柱状格式,虽然它有多种格式并且是一个更广泛的库,但它支持它。

fastparquet 专为专注于 parquet 格式而设计,以用于基于 python 的大数据流的流程。

【讨论】:

猜你喜欢
  • 2014-01-09
  • 2012-07-17
  • 2012-06-14
  • 2017-12-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-06-25
相关资源
最近更新 更多