【问题标题】:Keras ImageDataGenerator for Cloud ML Engine用于 Cloud ML 引擎的 Keras ImageDataGenerator
【发布时间】:2018-01-09 17:59:56
【问题描述】:

我需要训练一个由存储在 GCloud Storage 上的原始图像提供的神经网络。为此,我使用我的 Keras 图像生成器的 flow_from_directory 方法来查找存储中的所有图像及其相关标签。

training_data_directory = args.train_dir
testing_data_directory = args.eval_dir

training_gen = datagenerator.flow_from_directory(
                    training_data_directory,
                    target_size = (img_width, img_height),
                    batch_size = 32)

validation_gen = basic_datagen.flow_from_directory(
                    testing_data_directory,
                    target_size = (img_width, img_height),
                    batch_size = 32)

我的 GCloud Storage 架构如下:

布拉德桶/数据/火车
布拉德桶/数据/评估

gsutil 命令允许我确定我的文件夹存在。

brad$ gsutil ls gs://brad-bucket/data/
gs://brad-bucket/data/eval/
gs://brad-bucket/data/train/

这是我正在运行的脚本,用于在 ML Engine 上启动训练,其中包含我用于目录路径的字符串(train_dir、eval_dir)。

BUCKET="gs://brad-bucket"
JOB_ID="training_"$(date +%s)
JOB_DIR="gs://brad-bucket/jobs/train_keras_"$(date +%s)
TRAIN_DIR="gs://brad-bucket/data/train/"
EVAL_DIR="gs://brad-bucket/data/eval/"
CONFIG_PATH="config/config.yaml"
PACKAGE="trainer"

gcloud ml-engine jobs submit training $JOB_ID \
                                    --stream-logs \
                                    --verbosity debug \
                                    --module-name trainer.task \
                                    --staging-bucket $BUCKET \
                                    --package-path $PACKAGE \
                                    --config $CONFIG_PATH \
                                    --region europe-west1 \
                                    -- \
                                    --job_dir $JOB_DIR \
                                    --train_dir $TRAIN_DIR \
                                    --eval_dir $EVAL_DIR \
                                    --dropout_one 0.2 \
                                    --dropout_two 0.2

不过,我正在做的事情会引发 OSError。

ERROR   2018-01-10 09:41:47 +0100   service       File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/keras/_impl/keras/preprocessing/image.py", line 1086, in __init__
ERROR   2018-01-10 09:41:47 +0100   service         for subdir in sorted(os.listdir(directory)):
ERROR   2018-01-10 09:41:47 +0100   service     OSError: [Errno 2] No such file or directory: 'gs://brad-bucket/data/train/'

当我使用另一种数据结构(以另一种方式读取数据)时,一切正常,但是当我使用 flow_from_directory 从目录中读取时和子目录我总是遇到同样的错误。 是否可以使用此方法从 Cloud Storage 检索数据,还是必须以其他方式提供数据?

【问题讨论】:

  • 嘿,如果您输入或包含作为文本的错误和包含的代码 sn-p 会更好。此外,如果您可以包含 training_data_directory 的内容(以及测试)将有助于调试。

标签: tensorflow neural-network keras gcloud


【解决方案1】:

如果您检查source code,您会发现当 Keras(或 TF)试图从您的目录构建类时会出现错误。由于您给它一个 GCS 目录 (gs://),这将不起作用。您可以通过自己提供 classes 参数来绕过此错误,例如通过以下方式:

def get_classes(file_dir):
    if not file_dir.startswith("gs://"):
      classes = [c.replace('/', '') for c in os.listdir(file_dir)]
    else:
      bucket_name = file_dir.replace('gs://', '').split('/')[0]
      prefix = file_dir.replace("gs://"+bucket_name+'/', '')
      if not prefix.endswith("/"):
          prefix += "/"

      client = storage.Client()
      bucket = client.get_bucket(bucket_name)

      iterator = bucket.list_blobs(delimiter="/", prefix=prefix)
      response = iterator.get_next_page_response()
      classes = [c.replace('/','') for c in response['prefixes']]

    return classes

将这些类传递给flow_from_directory 将解决您的错误,但它不会识别文件本身(我现在得到例如Found 0 images belonging to 2 classes.)。

我发现的唯一“直接”解决方法是将文件复制到本地磁盘并从那里读取它们。最好有另一种解决方案(例如,如果是图像,复制可能需要很长时间)。

其他资源也建议在与 Cloud ML Engine 的 GCS 交互时使用 TensorFlow 的 file_io 函数,但在这种情况下,这需要您自己完全重写 flow_from_directory

【讨论】:

  • 感谢您的回答!我刚刚尝试了旁路,它工作得很好。我还使用了 Tensorflow 的 file_io 来处理转换为 h5 文件的数据集,以作为另一种解决方案为网络提供 numpy 数组。
  • 你有没有找到任何带有 flow_from 目录的图像?我想您的解决方案取代了 flow_from_directory?你能分享你的代码,用 TF file_io 加载和批处理到 Keras 中吗?
  • 是的,但是根据我必须存储的大量图像,我选择使用一个 h5 文件。我发布了一个示例,说明如何实现我为模型提供的内容。我看到的唯一缺点是,如果您的图像数据集非常大(对我来说大约 100 万张 100x100x3 图像),您最终会得到一个非常大的 h5 文件。另一种解决方案是使用分片 TFrecords。
【解决方案2】:

除了 dumkar 的解决方案。 可以尝试使用 Tensorflow 的 file_io 处理 h5 数据集。

with file_io.FileIO(os.path.join(data_dir, data_file_name), mode='r') as input_f:
        with file_io.FileIO('dataset.hdf5', mode='w+') as output_f:
                output_f.write(input_f.read())
dataset = h5py.File('dataset.hdf5', 'r')

这允许您将文件的临时本地副本存储在 GC 存储桶中。 这是 aloisg 的一个很好的要点,它演示了如何从图像数据集创建 h5 文件:https://gist.github.com/aloisg/ac83160edf8a543b5ee6

您现在可以从数据集中检索 X_train、y_train、X_eval 和 y_eval 以轻松提供 keras 模型。

【讨论】:

  • H5文件可以作为flow_from_directory的输入吗?
  • flow_from_directory 在给定目录的子目录中查找 PNG、JPG、BMP、PPM 或 TIF 文件。不过,您可以使用 flow() 将存储在 H5 文件中的 nparray 用作输入。
【解决方案3】:

很难像您当前的帖子那样为您提供帮助。然而,检查你得到的错误,我们可以看到它是由os.listdir() 抛出的,所以这不是 Keras 问题本身

这可能是由于您的目录不是绝对路径,或者它不存在(可能是拼写错误或类似情况)。如果您用更多信息更新您的问题,我可以帮助您更深入地了解这一点。

【讨论】:

  • 非常感谢您的回答!我刚刚编辑了帖子,今天仍在处理这个问题。
猜你喜欢
  • 2017-12-18
  • 2018-05-03
  • 1970-01-01
  • 1970-01-01
  • 2019-04-20
  • 2018-07-21
  • 2017-12-25
  • 2018-01-19
  • 2018-06-08
相关资源
最近更新 更多