尝试使用 Region CNN (R-CNN) 训练 ImageNet 模型答案

【问题标题】：Trying to train the ImageNet model with Region CNN (R-CNN)尝试使用 Region CNN (R-CNN) 训练 ImageNet 模型
【发布时间】：2016-01-11 02:44:07
【问题描述】：

在与caffe 合作几个月后，我已经能够成功地训练自己的模型。例如，比我自己的模型更进一步，我已经能够用 1000 个类训练 ImageNet。

现在在我的项目中，我正在尝试提取我感兴趣的区域。之后我编译并运行了Fast R-CNN 的演示，它工作正常，但是示例模型只包含 20 个类，我希望有更多的类，例如所有类。

我已经下载了ImageNet的bounding boxes，有实物图。

现在，我一头雾水，不知道接下来的步骤，也没有关于如何操作的文档。我唯一发现的是如何训练 INRIA 人物模型，他们提供数据集 + 注释 + python 脚本。

我的问题是：

是否有任何我错过的教程或指南？
是否已经有一个经过 1000 个类训练的模型能够对图像进行分类并提取边界框？

非常感谢您。

问候。

拉斐尔。

【问题讨论】：

标签： caffe neural-network computer-vision deep-learning caffe conv-neural-network

【解决方案1】：

Dr Ross Girshik 在物体检测方面做了大量工作。你可以从他在fast RCNN 上的详细 git 中学到很多东西：你应该可以在那里找到一个 caffe 分支，并带有一个演示。自己没用过，不过好像很好理解。

您可能会觉得有趣的另一个方向是LSDA：使用弱监督来训练许多类的对象检测。

顺便说一句，你看过faster-rcnn吗？

【讨论】：

您好@Shai，感谢您的回答。老实说，我不知道 LSDA 或 fast-rcnn，我将快速浏览一下它们。 LSDA 似乎很清楚。 Ross Girshik 的 git 的要点是我无法理解如何训练，因为没有像常规 Caffe 那样的“下载集”，它只允许下载预训练模型或训练具有 20 个类的模型。如果您提到的事情“清楚”，我会更深入地研究，因为也许我传递了一些我需要的细节......将看到其余的框架并更新答案。谢谢！
@RafaelRuiz AFAIK fast-rcnn git 有一个基于 VOC 注释的训练脚本（在 python 中），我相信（= 我自己没有尝试过）它可以更改为与其他注释集一起使用好吧。
我试试，非常感谢。我现在已经看到了那个脚本，但是我对其他文档（例如 INRIA 人物模型）感到困惑：\
@RafaelRuiz 它不会是在公园里散步......但是看看 fast-rcnn 论文 - 我相信它主要关注改进系统的训练。