【发布时间】:2017-08-30 00:04:48
【问题描述】:
我有一个大型数据集,这使我的 lmdb 变得庞大。对于 16.000 个样本,我的数据库已经是 20 GB。但我总共有 800.000 张图像,最终会产生大量数据。有没有办法压缩lmdb?还是使用 HDF5 文件更好?我想知道是否有人知道这个问题的最佳解决方案。
【问题讨论】:
-
你用caffe的
convert_imageset转换图片了吗?如果是,您是否使用了--encoded参数? -
不,我正在使用我自己的 python 代码来执行此操作,因为我必须更改和重塑我的数据。 @Inman
-
您将如何以编程方式对文件进行编码?我所做的是:
vtxn.put('{:0>10d}'.format(in_idx), datum.SerializeToString())。但我认为不可能“压缩” SerializeToString() 方法? @Inman -
我认为您不需要压缩
SerializeToString()。相反,您需要将数据设置为 jpg/png 数据并设置编码标志。详情见io.cpp。 -
@Inman 恕我直言,您应该写下您的最后一条评论作为答案,这样我就可以感谢您的帮助!我想这就是我一直在寻找的答案!
标签: compression caffe hdf5 lmdb bigdata