用于 Cloud ML 引擎的 Keras ImageDataGenerator答案

【问题标题】：Keras ImageDataGenerator for Cloud ML Engine用于 Cloud ML 引擎的 Keras ImageDataGenerator
【发布时间】：2018-01-09 17:59:56
【问题描述】：

我需要训练一个由存储在 GCloud Storage 上的原始图像提供的神经网络。为此，我使用我的 Keras 图像生成器的 flow_from_directory 方法来查找存储中的所有图像及其相关标签。

training_data_directory = args.train_dir
testing_data_directory = args.eval_dir

training_gen = datagenerator.flow_from_directory(
                    training_data_directory,
                    target_size = (img_width, img_height),
                    batch_size = 32)

validation_gen = basic_datagen.flow_from_directory(
                    testing_data_directory,
                    target_size = (img_width, img_height),
                    batch_size = 32)

我的 GCloud Storage 架构如下：

布拉德桶/数据/火车
布拉德桶/数据/评估

gsutil 命令允许我确定我的文件夹存在。

brad$ gsutil ls gs://brad-bucket/data/
gs://brad-bucket/data/eval/
gs://brad-bucket/data/train/

这是我正在运行的脚本，用于在 ML Engine 上启动训练，其中包含我用于目录路径的字符串（train_dir、eval_dir）。

BUCKET="gs://brad-bucket"
JOB_ID="training_"$(date +%s)
JOB_DIR="gs://brad-bucket/jobs/train_keras_"$(date +%s)
TRAIN_DIR="gs://brad-bucket/data/train/"
EVAL_DIR="gs://brad-bucket/data/eval/"
CONFIG_PATH="config/config.yaml"
PACKAGE="trainer"

gcloud ml-engine jobs submit training $JOB_ID \
                                    --stream-logs \
                                    --verbosity debug \
                                    --module-name trainer.task \
                                    --staging-bucket $BUCKET \
                                    --package-path $PACKAGE \
                                    --config $CONFIG_PATH \
                                    --region europe-west1 \
                                    -- \
                                    --job_dir $JOB_DIR \
                                    --train_dir $TRAIN_DIR \
                                    --eval_dir $EVAL_DIR \
                                    --dropout_one 0.2 \
                                    --dropout_two 0.2

不过，我正在做的事情会引发 OSError。

ERROR   2018-01-10 09:41:47 +0100   service       File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/keras/_impl/keras/preprocessing/image.py", line 1086, in __init__
ERROR   2018-01-10 09:41:47 +0100   service         for subdir in sorted(os.listdir(directory)):
ERROR   2018-01-10 09:41:47 +0100   service     OSError: [Errno 2] No such file or directory: 'gs://brad-bucket/data/train/'

当我使用另一种数据结构（以另一种方式读取数据）时，一切正常，但是当我使用 flow_from_directory 从目录中读取时和子目录我总是遇到同样的错误。是否可以使用此方法从 Cloud Storage 检索数据，还是必须以其他方式提供数据？

【问题讨论】：

嘿，如果您输入或包含作为文本的错误和包含的代码 sn-p 会更好。此外，如果您可以包含 training_data_directory 的内容（以及测试）将有助于调试。

标签： tensorflow neural-network keras gcloud

【解决方案1】：

如果您检查source code，您会发现当 Keras（或 TF）试图从您的目录构建类时会出现错误。由于您给它一个 GCS 目录 (gs://)，这将不起作用。您可以通过自己提供 classes 参数来绕过此错误，例如通过以下方式：

def get_classes(file_dir):
    if not file_dir.startswith("gs://"):
      classes = [c.replace('/', '') for c in os.listdir(file_dir)]
    else:
      bucket_name = file_dir.replace('gs://', '').split('/')[0]
      prefix = file_dir.replace("gs://"+bucket_name+'/', '')
      if not prefix.endswith("/"):
          prefix += "/"

      client = storage.Client()
      bucket = client.get_bucket(bucket_name)

      iterator = bucket.list_blobs(delimiter="/", prefix=prefix)
      response = iterator.get_next_page_response()
      classes = [c.replace('/','') for c in response['prefixes']]

    return classes

将这些类传递给flow_from_directory 将解决您的错误，但它不会识别文件本身（我现在得到例如Found 0 images belonging to 2 classes.）。

我发现的唯一“直接”解决方法是将文件复制到本地磁盘并从那里读取它们。最好有另一种解决方案（例如，如果是图像，复制可能需要很长时间）。

其他资源也建议在与 Cloud ML Engine 的 GCS 交互时使用 TensorFlow 的 file_io 函数，但在这种情况下，这需要您自己完全重写 flow_from_directory。

【讨论】：

感谢您的回答！我刚刚尝试了旁路，它工作得很好。我还使用了 Tensorflow 的 file_io 来处理转换为 h5 文件的数据集，以作为另一种解决方案为网络提供 numpy 数组。
你有没有找到任何带有 flow_from 目录的图像？我想您的解决方案取代了 flow_from_directory？你能分享你的代码，用 TF file_io 加载和批处理到 Keras 中吗？
是的，但是根据我必须存储的大量图像，我选择使用一个 h5 文件。我发布了一个示例，说明如何实现我为模型提供的内容。我看到的唯一缺点是，如果您的图像数据集非常大（对我来说大约 100 万张 100x100x3 图像），您最终会得到一个非常大的 h5 文件。另一种解决方案是使用分片 TFrecords。

【解决方案2】：

除了 dumkar 的解决方案。可以尝试使用 Tensorflow 的 file_io 处理 h5 数据集。

with file_io.FileIO(os.path.join(data_dir, data_file_name), mode='r') as input_f:
        with file_io.FileIO('dataset.hdf5', mode='w+') as output_f:
                output_f.write(input_f.read())
dataset = h5py.File('dataset.hdf5', 'r')

这允许您将文件的临时本地副本存储在 GC 存储桶中。这是 aloisg 的一个很好的要点，它演示了如何从图像数据集创建 h5 文件：https://gist.github.com/aloisg/ac83160edf8a543b5ee6。

您现在可以从数据集中检索 X_train、y_train、X_eval 和 y_eval 以轻松提供 keras 模型。

【讨论】：

H5文件可以作为flow_from_directory的输入吗？
flow_from_directory 在给定目录的子目录中查找 PNG、JPG、BMP、PPM 或 TIF 文件。不过，您可以使用 flow() 将存储在 H5 文件中的 nparray 用作输入。

【解决方案3】：

很难像您当前的帖子那样为您提供帮助。然而，检查你得到的错误，我们可以看到它是由os.listdir() 抛出的，所以这不是 Keras 问题本身。

这可能是由于您的目录不是绝对路径，或者它不存在（可能是拼写错误或类似情况）。如果您用更多信息更新您的问题，我可以帮助您更深入地了解这一点。

【讨论】：

非常感谢您的回答！我刚刚编辑了帖子，今天仍在处理这个问题。