Pandas HDFStore 缓存答案

【问题标题】：Pandas HDFStore cachingPandas HDFStore 缓存
【发布时间】：2021-10-12 14:15:59
【问题描述】：

我正在处理一个中等大小的数据集，该数据集由大约 150 个 HDF 文件组成，每个文件 0.5GB。有一个预定进程使用来自pd.HDFStore 的store.append 更新这些文件。

我正在尝试实现以下场景：对于 HDF 文件：

现在，这很好用，因为我们可以拥有任意数量的阅读器，只要它们都处于只读模式。但是，在第 3 步中，由于 HDFStore 缓存了文件，因此它不会返回打开连接后附加的行。有没有办法在不重新打开商店的情况下选择新添加的行？

【问题讨论】：

【解决方案1】：

经过更多研究后，我得出结论，这对于 HDF 文件是不可能的。实现上述功能的唯一可靠方法是使用数据库（SQLite 最接近 - 读/写速度低于 HDF，但仍比成熟的数据库（如 Postgres 或 MySQL）快）。

【讨论】：