【问题标题】:Design strategy for managing and processing datasets with Pandas + PyTables使用 Pandas + PyTables 管理和处理数据集的设计策略
【发布时间】:2012-09-17 10:45:53
【问题描述】:

作为 numpy 的普通用户,我爱上了 Pandas 的语法和概念,并开始阅读 PyTables,它看起来非常健壮且面向性能。

我的主要疑问是:

  • 如果我要使用由 Pandas + PyTables 组成的自制框架,应该将数据处理管道的哪一层(数据导入、转换、分析、存储、检索)委托给每一层?
  • Pandas 的天赋是什么,它与 PyTables 的天赋有什么关系,它们的天赋有什么关系?
  • 它们是正交/互补/独立,还是以某种方式重叠功能?
  • 它们之间有何区别?

感谢您的光!

【问题讨论】:

    标签: dataset pandas pytables


    【解决方案1】:

    pandas 和 pytables 之间没有太多重叠,但它们是很好的互补。 PyTables 是关于存储和检索的,而 pandas 是关于在检索之后和​​存储之前处理数据的。 Pandas 具有方便的 PyTables 接口(查看 pandas.io.pytables.HDFStore),因此您可以使用 pytables 轻松存储 pandas Series/DataFrame。

    【讨论】:

      最近更新 更多