Deep Learning的案例FasterRCNN（二）

二

训练流

caffe版本的训练步骤
到底在学习什么东西？
LossFunction
在caffe中的数据流

后记

训练流

caffe版本的训练步骤

Step1-RPN.TRAIN
Step1-RPN.PROPOSAL
Step2-FASTRCNN.TRAIN
Step3-RPN.TRAIN
Step3-RPN.PROPOSAL
Step4-FASTRCNN.TRAIN

到底在学习什么东西？

识别+小分类(是否有物体)：RPN
识别方法：CNN特征提取+Bounding-Box回归
回归(学习)什么: 一种平面图形的映射 $\mathbf{t}:\mathbf{P}\to \mathbf{\hat{G}}$ 。
具体来说是把一个proposal( $\mathbf{P}$ )形状变形成一个groundtruth( $\mathbf{\hat{G}}$ )形状。已知函数形式，学习(求解)该函数的参数

$\mathbf{t}=\left\{ \begin{array}{ll} \hat{G}_{x}=P_{w}t_{x}(\mathbf{P})+P_{x} & \textrm{}\\ \hat{G}_{y}=P_{h}t_{y}(\mathbf{P})+P_{y} & \textrm{}\\ \hat{G}_{w}=P_{w}exp(t_{w}(\mathbf{P})) & \textrm{}\\ \hat{G}_{h}=P_{h}exp(t_{h}(\mathbf{P})) & \textrm{}\\ \end{array} \right.$

对于每一个 $t_{*}=\mathbf{w}_{*}^{T}\phi(\mathbf{P}^i)$
$\mathbf{w}_{*}=\argmin\limits_{\hat{\mathbf{w}}_{*}}\sum^{N}_{i}(t^i_{*}-\hat{\mathbf{w}}_{*}^{T}\phi(\mathbf{P}^i))^2+\lambda||\hat{\mathbf{w}}_{*}||^2$

LossFunction

注意这里的 $\mathbf{v}=\hat{\mathbf{w}}_{*}^{T}\phi(\mathbf{P}^i)$ ,即预测的变形函数的参数
$L(\mathbf{p},u,\mathbf{t}^u,\mathbf{v})=L_{cls}(\mathbf{p},u)+\lambda[u\geqslant1]L_{loc}(\mathbf{t}^u,\mathbf{v})$

$L_{loc}(\mathbf{t}^u,\mathbf{v})=\sum_{i\in\{x,y,w,h\}}smooth_{L_{1}}(t^u_{i},v_{i})$

$smooth_{L_{1}}(x)=\left\{ \begin{array}{ll} 0.5 (\sigma x)^2 & \textrm{ if } |x| < \frac{1}{\sigma ^2}\\ |x| - \frac{0.5 }{\sigma ^2} & \textrm{ otherwise}\\ \end{array} \right.$

在caffe中的数据流

Deep Learning的案例FasterRCNN（二）

一张原始图片经过共享卷积层得到 $bottom[0]=[...,W_{c},H_{c}]$
ROIDataLayer从一张随机缩放过的图片中抽出所有的ROI区域，得到 $bottom[1]=gtbox[x1,y1,x2,y2,cls];bottom[2]=[W_{0},H_{},scale]$
AnchorTargetLayer在setup时原点处产生 $A$ 个anchor
在Forward中产生 $W_{c}*H_{c}$ 个shift值,通过shift偏移anchor共产生 $A*W_{c}*H_{c}$ 个 $all\_anchors$
去掉 $all\_anchors$ 中越界的anchor得到新的anchors
计算anchors与gtbox的overlap值，给anchors标记label,其中 $>0.7,label=1;<0.3,label=0;other,label=-1$ 给 $top[0]$
抽取256个anchors的样本数，正负样本保持1:1
计算 $\mathbf{v}$ ,给 $top[1]$ ;计算 $u$ ,给 $top[2]$ ;计算 $\lambda$ ,给 $top[3]$
Backward反向传播，更新权值

这些细节数据流程现在来看都有些模糊了，映像最深的还是那个变形函数的映射建立，说明带问题式搜索解答才是最有效率的。

后记

当年做到这里考虑的可以改造的思路

替换数据集？
替换共享卷积层？
替换回归函数？
多路输出+deepmusk+shapemusk=multipathnet?

这个时候就是看谁的动手能力强以及实验环境条件了。现在这个系列已经出到了MaskRCNN，甚至全部直接集成到Detectron2，也就意味着这一波用网络方法改造原有hardcoding视觉识别基础层的小高峰完成了。待其被各种花式应用探索潜力以后，应用层又会嗷嗷待哺，等待新一波的高峰到来。

- [1] Fast R-CNN

- [2] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.

- [3] https://www.jianshu.com/p/1f975b05ca86

- [4] https://www.jianshu.com/p/5056e6143ed5

- [5] https://www.jianshu.com/p/ab1ebddf58b1