用于保存和操作大张量的高效 HDF5 / PyTables 布局答案

【问题标题】：Efficient HDF5 / PyTables Layout for saving and operating on large tensors用于保存和操作大张量的高效 HDF5 / PyTables 布局
【发布时间】：2020-02-15 16:53:11
【问题描述】：

我正在尝试为我的用例（一个研究项目）找出最佳的数据布局。这不是我的专长，所以虽然我可以清楚地表达我想要什么，以及我认为什么可行，但我正在努力避开失败的道路。

现在，假设原始数据类似于几个大型文本语料库，这些语料库被分成序列（例如句子），每个序列都包含许多标记（例如单词）。我在句子标记的基础上提取、处理和保存信息，但在以下分析中需要对其进行不同的操作。具体来说，每个句子中的每个标记都与一个大向量（可以是数字）相关联，该向量由许多已经实现的操作准备。每个序列都与一些元数据相关联。此操作以及由此数据的准备只发生一次。

所以：初始操作的输出是一个三维张量 D[x,y,z] 加上与 x 维度关联的元数据。 x 维度表示序列，y 表示序列中的标记位置（但不是唯一的标记 ID，例如单词编码，它是序列元数据的一部分），z 是信息的列（数千）对于那个令牌。因此，每个序列都与作为行的标记矩阵和作为列的信息相关联。如有必要，可以使元数据适合第一行。请注意，每个序列的长度相同。

Sequence 1
Meta-data: [..]
         Column 1 | Column 2 | ...
Token 1 |  [...]  |   [...]  | ...    
Token 2 |  [...]  |   [...]  | ...   
...
Token N |  [...]  |   [...]  | ... 

Sequence 2
Meta-data: [..]
         Column 1 | Column 2 | ...
Token 1 |  [...]  |   [...]  | ...    
Token 2 |  [...]  |   [...]  | ...   
...
Token N |  [...]  |   [...]  | ...

这些数据被不同的后续分析多次提取。因此，我需要对这些数据有不同的“视图”，如下所示：

我需要能够查询每个序列并获得令牌->值的完整矩阵。这只是输出 3D 张量，我沿着第一维查询。如果能够一次“切片”多个序列（例如 ML 模型的随机批次等），那就太好了。
我需要能够通过唯一的令牌 ID（例如单词“hello”）进行查询，并注意每个令牌可能出现在多个序列和不同位置。这不是对张量维度的查询，而是要求将唯一令牌 ID 映射到它们在序列中的位置（或允许此类查询的每个序列中的元数据）的数据。
我最终为每个序列的每个标记生成并保存进一步的汇总值，我力求非常快速地查询，而该序列中的其他信息不相关。

所有后续建模的共同点是

我需要尽可能多的 RAM 用于后续分析，或者换句话说，数据可能需要也可能不需要推送到磁盘。这就是为什么我正在寻找一种允许内存中和内存外访问的解决方案。特别是，整个张量可能根本不适合内存（它是随后在 x 维度上建立的）
鉴于固定结构，索引和切片相对简单，但我可能经常需要选择不相邻的条目，例如来自不相关序列的标记。
整个事情不应该成为后续分析的瓶颈。如果它具有一定的便携性并且不需要额外的软件，这也将是有益的，这样其他研究人员可以轻松地分发和复制结果。事实上，如果事实证明可行（合法），我希望让这些数据可供下载
由于这是一个输入，我主要对从 python 或其他语言访问这些数据的速度感兴趣。

基于此，我暂时决定使用 h5py 或 pyTables，但我对其他选项持开放态度。

虽然数据很大，但磁盘空间不是问题（在中等大小的服务器上）。我进一步迭代每个序列至少一次以执行初始操作。因此，我计划将每个所需的“视图”保存到单独的数据集中，每个数据集都进行了布局以实现高效访问。

我的计划如下：

我将输出张量保存为 pyTables 中的多维数组。索引维度将是序列号。我可能会查询多个序列，但总是摄取整个序列的 2D 表。我希望 pyTables 允许我将整个 3D 张量保存在磁盘上，并且只将所需的数据读入 RAM。
我将保存一个新数据集，该数据集具有唯一的 token-id 作为索引，sequence-id 作为第二列，然后将所需的信息作为数组。这样，我可以通过 token-id 查询并获取所有序列中关联的所有数据。这包括很多重复，但应该允许快速查询 (?)
我最终将制作一个较小的数据集，其中包含每个序列的每个 token-id（作为索引）的相关摘要数据。

您认为这会在计算时间方面有效吗？

我看到的另一条路线是关系数据库，例如 SQL。在这里，我可以简单地为序列中的每个实际单词创建条目，以及相关的令牌 ID、序列号和我需要的数据。然后可以使用 SQL 查询以我选择的任何方式获取数据。此外，任何元数据都可以按顺序或标记保存在其他表中，没有太多限制。

但是，我不确定这是否是最快的选择，因为我不需要 SQL 提供的很多东西，例如额外的灵活性（我的查询/视图是固定的，索引/切片始终沿固定维度）或全部访问保护等等。另外，如果只是一些数据集文件，可移植性会更好。

我也不确定 SQL 如何处理内存中和内存外问题。在某些情况下，我的大部分数据实际上都适合 RAM，所以我也希望那里具有灵活性。

问题：

您认为最好的方法是什么？我的计划合理吗？
SQL 显然更灵活，是不是更快？
在 HDF5 中我还不明白分块和组是如何参与其中的。看来我不能真正分块我的数据，因为我需要能够以高频率查询非连续数据。对于我的用例，我不应该分块是否正确？
同样，组和链接。我的数据结构不像一棵树，因为每个标记可能出现在许多序列中，这就是我选择完全生成不同数据集的原因。尝试使用硬链接或组会更有效吗？
HDF5 的内存模型如何工作（在 python 中实现）？我真的可以查询 3D 张量，并且只将结果保存在内存中，而且还可以缓存经常查询的序列或标记？

如果我的描述不清楚，请告诉我。感谢您抽出宝贵时间阅读所有内容。

【问题讨论】：

h5py 是HDF5 和numpy 数组之间的接口。虽然它可以很好地访问多维数组，包括通常的切片，但它对于数值比对于文本更好（numpyunicode string dtypes）。 Pytables 我用的不多，但它更面向pandas 使用。
所有值都会被编码为数字，所以我觉得还可以

标签： python database hdf5 h5py pytables

【解决方案1】：

对于遇到这个问题的任何人，让我给你结果。

以上使用 pyTables 按预期工作。它可以相当快地完成。但是，逻辑很快就会产生幽默巨大的文件，所以我只能建议另辟蹊径。特别是，磁盘空间比 RAM 使用更成问题，尤其是事情可以稀疏化。

将数据子集到内存中的自定义解决方案比使用 pyTables 分块更成功。因此，实际上，在所有情况下，除了极端情况外，上述方法可能都不是一个好主意。

【讨论】：