【发布时间】:2021-03-29 01:57:22
【问题描述】:
我刚刚发现Parquet,它满足了我的“大”数据处理/(本地)存储需求:
- 比关系型数据库更快,后者旨在通过网络运行(产生开销),只是不如为本地存储设计的解决方案快
- 与 JSON 或 CSV 相比:非常适合将数据高效地存储到类型中(而不是所有内容都是字符串),并且可以比 JSON 或 CSV 更动态地从文件中读取特定块
但令我沮丧的是,虽然 Node.js 有一个功能齐全的库,the only Parquet lib for Python 似乎确实是事半功倍:
parquet-python 是 parquet 格式的纯 python 实现(目前仅支持读取)......并非 parquet 格式的所有部分都已实现或测试,例如嵌套数据
那是什么?有没有比 Python 已经支持的 Parquet 更好的东西来降低开发支持它的库的兴趣?有没有比较接近的选择?
【问题讨论】:
-
@DanScally 谢谢。我忽略了这个结果,看到它来自 Apache,认为这是手动实现格式的方法。