使用 Pandas + PyTables 管理和处理数据集的设计策略答案

【问题标题】：Design strategy for managing and processing datasets with Pandas + PyTables使用 Pandas + PyTables 管理和处理数据集的设计策略
【发布时间】：2012-09-17 10:45:53
【问题描述】：

作为 numpy 的普通用户，我爱上了 Pandas 的语法和概念，并开始阅读 PyTables，它看起来非常健壮且面向性能。

我的主要疑问是：

如果我要使用由 Pandas + PyTables 组成的自制框架，应该将数据处理管道的哪一层（数据导入、转换、分析、存储、检索）委托给每一层？
Pandas 的天赋是什么，它与 PyTables 的天赋有什么关系，它们的天赋有什么关系？
它们是正交/互补/独立，还是以某种方式重叠功能？
它们之间有何区别？

感谢您的光！

【问题讨论】：

标签： dataset pandas pytables

【解决方案1】：

pandas 和 pytables 之间没有太多重叠，但它们是很好的互补。 PyTables 是关于存储和检索的，而 pandas 是关于在检索之后和存储之前处理数据的。 Pandas 具有方便的 PyTables 接口（查看 pandas.io.pytables.HDFStore），因此您可以使用 pytables 轻松存储 pandas Series/DataFrame。

【讨论】：