读取 .h5 文件非常慢答案

【问题标题】：Reading .h5 file is extremely slow读取 .h5 文件非常慢
【发布时间】：2021-10-12 18:52:02
【问题描述】：

我的数据以 .h5 格式存储。我使用数据生成器来拟合模型，它非常慢。下面提供了我的代码的 sn-p。

def open_data_file(filename, readwrite="r"):
    return tables.open_file(filename, readwrite)

data_file_opened = open_data_file(os.path.abspath("../data/data.h5"))

train_generator, validation_generator, n_train_steps, n_validation_steps = get_training_and_validation_generators(
        data_file_opened,
        ......)

地点：

def get_training_and_validation_generators(data_file, batch_size, ...):
    training_generator = data_generator(data_file, training_list,....)

data_generator函数如下：

def data_generator(data_file, index_list,....):
      orig_index_list = index_list
    while True:
        x_list = list()
        y_list = list()
        if patch_shape:
            index_list = create_patch_index_list(orig_index_list, data_file, patch_shape,
                                                 patch_overlap, patch_start_offset,pred_specific=pred_specific)
        else:
            index_list = copy.copy(orig_index_list)

        while len(index_list) > 0:
            index = index_list.pop()
            add_data(x_list, y_list, data_file, index, augment=augment, augment_flip=augment_flip,
                     augment_distortion_factor=augment_distortion_factor, patch_shape=patch_shape,
                     skip_blank=skip_blank, permute=permute)
            if len(x_list) == batch_size or (len(index_list) == 0 and len(x_list) > 0):
                yield convert_data(x_list, y_list, n_labels=n_labels, labels=labels, num_model=num_model,overlap_label=overlap_label)
                x_list = list()
                y_list = list()

add_data()如下：

def add_data(x_list, y_list, data_file, index, augment=False, augment_flip=False, augment_distortion_factor=0.25,
             patch_shape=False, skip_blank=True, permute=False):
    '''
    add qualified x,y to the generator list
    '''
#     pdb.set_trace()
    data, truth = get_data_from_file(data_file, index, patch_shape=patch_shape)
    
    if np.sum(truth) == 0:
        return
    if augment:
        affine = np.load('affine.npy')
        data, truth = augment_data(data, truth, affine, flip=augment_flip, scale_deviation=augment_distortion_factor)

    if permute:
        if data.shape[-3] != data.shape[-2] or data.shape[-2] != data.shape[-1]:
            raise ValueError("To utilize permutations, data array must be in 3D cube shape with all dimensions having "
                             "the same length.")
        data, truth = random_permutation_x_y(data, truth[np.newaxis])
    else:
        truth = truth[np.newaxis]

    if not skip_blank or np.any(truth != 0):
        x_list.append(data)
        y_list.append(truth)

模型训练：

def train_model(model, model_file,....):
    model.fit(training_generator,
                        steps_per_epoch=steps_per_epoch,
                        epochs=n_epochs,
                        verbose = 2,
                        validation_data=validation_generator,
                        validation_steps=validation_steps)

我的数据集很大：data.h5 为 55GB。完成一个纪元大约需要 7000 秒。并且在 6 个 epoch 之后出现分段错误错误。批量大小设置为 1，否则会出现资源耗尽错误。有没有一种有效的方法来读取生成器中的 data.h5，以便训练更快并且不会导致内存不足错误？

【问题讨论】：

.h5 文件有多大？
看起来您使用的是 pytables，而不是 h5py。
数据集大小为 55GB。数据以 .h5 格式存储为 data.h5。我使用 pytables 打开文件。
您在 1 个 epoch 中从 .h5 文件中读取了多少次数据？（多少次调用读取函数？）速度随着 I/O 操作的数量而降低。另外，您是否使用精美的索引？这比简单的切片要慢。
@Salmonstrikes 提出了一个关于压缩的好观点——它减慢了 I/O。有时它可能很重要（特别是在更高的压缩级别 - 我只使用 level=1）。解压缩文件并比较性能很容易。 PyTables 有一个ptrepack 实用程序可以做到这一点。这是将数据文件解压缩到新文件的方法：ptrepack --complevel 0 data.h5 data_unc.h5。将代码中数据文件的名称改为data_unc.h5

标签： python generator hdf5 h5py pytables

【解决方案1】：

这是我回答的开始。我查看了您的代码，您有很多调用来读取 .h5 数据。据我统计，生成器对training_list 和validation_list 上的每个循环进行6 次读取调用。所以，在一个训练循环上，这几乎是 20k 次调用。（对我来说）不清楚是否在每个训练循环上都调用了生成器。如果是，则乘以 2268 个循环。

HDF5 文件读取的效率取决于读取数据的调用次数（而不仅仅是数据量）。换句话说，在一次调用中读取 1GB 的数据比一次读取 1000 次 x 1MB 的相同数据要快。因此，我们首先需要确定的是从 HDF5 文件中读取数据所花费的时间（与您的 7000 相比）。

我隔离了读取数据文件的 PyTables 调用。由此，我构建了一个简单的程序来模仿生成器函数的行为。目前，它在整个样本列表上进行单个训练循环。如果您希望运行更长的测试，请增加 n_train 和 n_epoch 值。（注：代码语法是正确的。但是没有文件，所以无法验证逻辑。我认为它是正确的，但您可能需要修复一些小错误。）

见下面的代码。它应该独立运行（所有依赖项都已导入）。它打印基本的计时数据。运行它来对您的生成器进行基准测试。

import tables as tb
import numpy as np
from random import shuffle 
import time

with tb.open_file('../data/data.h5', 'r') as data_file:

    n_train = 1
    n_epochs = 1
    loops = n_train*n_epochs
    
    for e_cnt in range(loops):  
        nb_samples = data_file.root.truth.shape[0]
        sample_list = list(range(nb_samples))
        shuffle(sample_list)
        split = 0.80
        n_training = int(len(sample_list) * split)
        training_list = sample_list[:n_training]
        validation_list = sample_list[n_training:]
        
        start = time.time()
        for index_list in [ training_list, validation_list ]:
            shuffle(index_list)
            x_list = list()
            y_list = list()
            
            while len(index_list) > 0:
                index = index_list.pop() 
                
                brain_width = data_file.root.brain_width[index]
                x = np.array([modality_img[index,0,
                                           brain_width[0,0]:brain_width[1,0]+1,
                                           brain_width[0,1]:brain_width[1,1]+1,
                                           brain_width[0,2]:brain_width[1,2]+1] 
                              for modality_img in [data_file.root.t1,
                                                   data_file.root.t1ce,
                                                   data_file.root.flair,
                                                   data_file.root.t2]])
                y = data_file.root.truth[index, 0,
                                         brain_width[0,0]:brain_width[1,0]+1,
                                         brain_width[0,1]:brain_width[1,1]+1,
                                         brain_width[0,2]:brain_width[1,2]+1]    
                
                x_list.append(data)
                y_list.append(truth)
    
        print(f'For loop:{e_cnt}')
        print(f'Time to read all data={time.time()-start:.2f}')

【讨论】：

非常感谢您的详细回答。我会检查一下，看看是否有任何错误。您能否解释一下设置n_train = 1 和n_epochs = 1。因此，当您说“它在整个样本列表上进行单个训练循环”时，是否意味着它只调用一次数据。如果我训练 (model.fit) 10 个时期，我不必在这里更改 n_epochs，对吗？
正确。使用n_train = 1 和n_epochs = 1，整个样本列表只能读取一次。这将使您对读取数据的时间有所了解。我这样做是因为我不确定何时调用生成器。我不认为生成器被称为纪元循环。我不确定训练循环。此外，您可以比较读取压缩文件和未压缩文件的时间。
还有一个问题，请。如果批量大小大于 GPU 内存（10GB），它会进入 CPU 吗？在那种情况下，会发生分段错误吗？我的数据文件大小为 55GB。因为，除了训练缓慢的问题外，在 6 个 epoch 之后，我遇到了分段错误。我不确定这是否与内存不足有关。
读取 1 个循环的数据需要多长时间？如果它“足够快”，那么您的问题就在其他地方。您的问题超出了我对算法和内存使用的了解。我 99% 确定 PyTables 使用 CPU（系统）RAM（仅）。 6 epochs 的分段错误听起来像是 TF 中的内存问题。我知道它可以使用 GPU 内存，但不知道如何控制 GPU 与 CPU 内存的使用。这是 2018 年的一个有趣的 SO 问题：*.com/q/51343169/10462884。有关更多相关问题/答案，请搜索标记为 [tensorflow] [gpu] 的问题。祝你好运。