使用预训练模型的图像大小 Tensorflow 对象检测答案

【问题标题】：Image Sizes Tensorflow Object Detection using pretrained models使用预训练模型的图像大小 Tensorflow 对象检测
【发布时间】：2018-02-20 04:40:24
【问题描述】：

我看到 tensorflow 对象检测 API 允许自定义输入的图像大小。我的问题是这如何与预训练权重一起工作，这些权重通常在 224*224 图像上进行训练，有时是 300*300 图像。

在我使用的其他框架中，例如 caffe rfcn、yolo 和 keras ssd，图像被缩小以适应带有预训练权重的标准尺寸。

tf 使用的预训练权重是 300*300 的输入大小吗？如果是这样，我们如何使用这些权重对自定义图像尺寸进行分类？ tf 是否缩小到相应的权重大小？

【问题讨论】：

标签： tensorflow object-detection imagenet

【解决方案1】：

据我了解，输入大小仅影响网络的输入层。但如果有错误请纠正我，我对整个深度学习范式还是很陌生。

我使用了三种模型的 Tensorflow 对象检测 API。 Faster R-CNN 和 R-FCN，都带有 Resnet101 特征提取器和带有 Inception V2 的 SSD 模型。 SSD 模型将图像重塑为固定的M x M 大小。 Huang 等人的论文“现代卷积物体检测器的速度/准确度权衡”中也提到了这一点，而 n Faster R-CNN 和 R-FCN 模型是在较短的缩放到 M 像素的图像上训练的边缘。这种调整大小位于模型的预处理阶段。

另一种方法是保持纵横比并在图像上裁剪固定大小，然后可以从不同位置（中心、左上角、右上角、左下角、右下角等）裁剪到使模型健壮。更复杂的方法包括将图像调整到多个比例并进行裁剪，并在稍后使用具有自适应池大小的卷积层中使用不同的纵横比来制作与 SPP 相同的特征维度（有关更多详细信息，请参见 He 等人的 Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition。）这是配置原型中的keep_aspect_ratio_resizer 所做的事情。

这使我理解的架构能够适应不同的图像大小。所以隐藏层的内部权重不受图像输入大小的影响。

【讨论】：