【发布时间】:2018-11-05 20:21:39
【问题描述】:
在 TensorFlow 对象检测 API 中,如果数据集包含“超过几千个示例”,他们提倡分片,noting that:
- tf.data.Dataset API 可以并行读取输入示例,从而提高吞吐量。
- tf.data.Dataset API 可以使用分片文件更好地打乱示例,从而略微提高模型的性能。
几千有点模糊,如果有更精确的答案,比如文件大小,那就太好了。换句话说,.record 文件在开始导致性能问题之前可以有多大?在对数据进行分片时,我们应该以多大的文件大小为目标?
【问题讨论】:
标签: python tensorflow object-detection-api