【发布时间】:2018-10-24 15:51:42
【问题描述】:
假设,我有一个庞大的对象列表,例如,每个对象都可以是一个 numpy 数组列表。
将此数据集传递给 tensorflow 的最佳方法是什么?
我希望能够随机打乱数据并形成批次。是否值得使用标准 python(numpy) 程序对数据集进行洗牌并形成批次,然后使用 tf.data.Dataset.from_generator() 之类的东西?
由于tf.GraphDef 协议缓冲区的大小限制(根据 Tensorflow 文档),将完整数据集转换为 tf.Tensor 的直接方法似乎没用。
【问题讨论】:
-
你能用字节来定义“巨大”吗?
-
@cricket_007 超过 10GB
-
您是否需要一次性获取整个数据集?还是你使用批处理?
-
尽管this thread 与 Tensorflow 无关,但它仍然可以为您提供很多想法。
标签: python tensorflow deep-learning bigdata