【发布时间】:2021-10-12 14:15:59
【问题描述】:
我正在处理一个中等大小的数据集,该数据集由大约 150 个 HDF 文件组成,每个文件 0.5GB。有一个预定进程使用来自pd.HDFStore 的store.append 更新这些文件。
我正在尝试实现以下场景: 对于 HDF 文件:
- 保持更新商店的进程运行
- 以只读模式打开商店
- 运行一个 while 循环,该循环将不断地从存储中选择最新的可用行。
- 在脚本退出时关闭商店
现在,这很好用,因为我们可以拥有任意数量的阅读器,只要它们都处于只读模式。但是,在第 3 步中,由于 HDFStore 缓存了文件,因此它不会返回打开连接后附加的行。有没有办法在不重新打开商店的情况下选择新添加的行?
【问题讨论】:
标签: python pandas pytables hdf