【问题标题】:Design strategy for managing and processing datasets with Pandas + PyTables使用 Pandas + PyTables 管理和处理数据集的设计策略
【发布时间】:2012-09-17 10:45:53
【问题描述】:
作为 numpy 的普通用户,我爱上了 Pandas 的语法和概念,并开始阅读 PyTables,它看起来非常健壮且面向性能。
我的主要疑问是:
- 如果我要使用由 Pandas + PyTables 组成的自制框架,应该将数据处理管道的哪一层(数据导入、转换、分析、存储、检索)委托给每一层?
- Pandas 的天赋是什么,它与 PyTables 的天赋有什么关系,它们的天赋有什么关系?
- 它们是正交/互补/独立,还是以某种方式重叠功能?
- 它们之间有何区别?
感谢您的光!
【问题讨论】:
标签:
dataset
pandas
pytables
【解决方案1】:
pandas 和 pytables 之间没有太多重叠,但它们是很好的互补。 PyTables 是关于存储和检索的,而 pandas 是关于在检索之后和存储之前处理数据的。 Pandas 具有方便的 PyTables 接口(查看 pandas.io.pytables.HDFStore),因此您可以使用 pytables 轻松存储 pandas Series/DataFrame。