【问题标题】:Pandas HDFStore cachingPandas HDFStore 缓存
【发布时间】:2021-10-12 14:15:59
【问题描述】:

我正在处理一个中等大小的数据集,该数据集由大约 150 个 HDF 文件组成,每个文件 0.5GB。有一个预定进程使用来自pd.HDFStorestore.append 更新这些文件。

我正在尝试实现以下场景: 对于 HDF 文件:

  1. 保持更新商店的进程运行
  2. 以只读模式打开商店
  3. 运行一个 while 循环,该循环将不断地从存储中选择最新的可用行。
  4. 在脚本退出时关闭商店

现在,这很好用,因为我们可以拥有任意数量的阅读器,只要它们都处于只读模式。但是,在第 3 步中,由于 HDFStore 缓存了文件,因此它不会返回打开连接后附加的行。有没有办法在不重新打开商店的情况下选择新添加的行?

【问题讨论】:

    标签: python pandas pytables hdf


    【解决方案1】:

    经过更多研究后,我得出结论,这对于 HDF 文件是不可能的。实现上述功能的唯一可靠方法是使用数据库(SQLite 最接近 - 读/写速度低于 HDF,但仍比成熟的数据库(如 Postgres 或 MySQL)快)。

    【讨论】:

      猜你喜欢
      • 2013-08-14
      • 2017-06-12
      • 2016-10-05
      • 2015-01-16
      • 1970-01-01
      • 2015-04-30
      • 2013-08-18
      • 2015-06-12
      • 2013-12-28
      相关资源
      最近更新 更多