lmdb 类型的 Caffe 大文件答案

【问题标题】：Caffe large files of type lmdblmdb 类型的 Caffe 大文件
【发布时间】：2016-03-24 22:41:16
【问题描述】：

我想知道caffe 中使用的 lmdb 文件是否比包含原始图像的文件大得多是有原因的。请给我一个解释好吗？

【问题讨论】：

标签： caffe computer-vision neural-network deep-learning caffe lmdb

【解决方案1】：

对于这样一个抽象的问题，很难给出具体的答案，但我会试一试：
图像文件通常被压缩：大小为h by w by 3 的.png 或.jpg 由于压缩占用的磁盘空间远少于h*w*3 字节。另一方面，要在神经网络（或任何其他 ML 软件）中处理图像，您需要使用图像的未压缩表示。因此，caffe 使用的lmdb、leveldb、hdf5 数据集以 未压缩 方式存储输入图像，每个像素使用 32 位浮点数（而不是 uint8），因此急剧增加文件大小。

【讨论】：

感谢您的回答。我只是想验证这种情况是正常的，我没有犯任何错误。谢谢谢
@user5640428：除了这个答案：caffe 可以处理存储在lmdb 中的压缩图像。如果您使用 caffe 中的 convert_imageset 工具，则可以传递-encode_type=png 或-encode_type=jpg 参数将编码图像保存到lmdb。它会显着减少您的数据库大小，但会在训练/测试阶段花费更多时间来解码图像。
@avtomaton ，我会对使用这种技术感兴趣，因为我使用的是几乎没有内存的开发板，并且需要使用 U 盘来提供信息。你以前试过这个成功吗？另外，我在运行我的网络时是否必须添加其他命令，或者默认情况下 caffe 会对其进行解码？谢谢
@jerpint 这是一个有趣的问题。为什么要把它埋在评论里？请考虑将其作为问题发布
@Shai 我发了一个问题here，谢谢