目标检测faster rcnn c训练过程是为了什么

点击联系发帖人 时间：2017-09-22 10:15

caffe faster rcnn

Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015.
继2014年的RCNN之后，Ross Girshick在15年推出Fast RCNN，构思精巧，流程更为紧凑，大幅提升了目标检测的速度。在Github上提供了。
同样使用最大规模的网络，Fast RCNN和RCNN相比，训练时间从84小时减少为9.5小时，测试时间从47秒减少为0.32秒。在PASCAL VOC 2007上的准确率相差无几，约在66%-67%之间.
基础：RCNN
简单来说，RCNN使用以下四步实现目标检测：
a. 在图像中确定约个候选框
b. 对于每个候选框内图像块，使用深度网络提取特征
c. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类
d. 对于属于某一特征的候选框，用回归器进一步调整其位置
更多细节可以参看。
改进：Fast RCNN
Fast RCNN方法解决了RCNN方法三个问题：
问题一：测试时速度慢
RCNN一张图像内候选框之间大量重叠，提取特征操作冗余。
本文将整张图像归一化后直接送入深度网络。在邻接时，才加入候选框信息，在末尾的少数几层处理每个候选框。
问题二：训练时速度慢
原因同上。
在训练时，本文先将一张图像送入网络，紧接着送入从这幅图像上提取出的候选区域。这些候选区域的前几层特征不需要再重复计算。
问题三：训练所需空间大
RCNN中独立的分类器和回归器需要大量特征作为训练样本。
本文把类别判断和位置精调统一用深度网络实现，不再需要额外存储。
以下按次序介绍三个问题对应的解决方法。
特征提取网络
图像归一化为224×224直接送入网络。
前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域（图像序号×1+几何位置×4，序号用于训练）？。
注：文中给出了大中小三种网络，此处示出最大的一种。三种网络基本结构相似，仅conv+relu层数有差别，或者增删了norm层。
roi_pool层的测试(forward)
roi_pool层将每个候选区域均匀分成M×N块，对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层。
roi_pool层的训练(backward)
首先考虑普通max pooling层。设xi为输入层的节点，yj为输出层的节点。
?L?xi={0?L?yjδ(i,j)=falseδ(i,j)=true
其中判决函数δ(i,j)表示i节点是否被j节点选为最大值输出。不被选中有两种可能：xi不在yj范围内，或者xi不是最大值。
对于roi max pooling，一个输入节点可能和多个输出节点相连。设xi为输入层的节点，yrj为第r个候选区域的第j个输出节点。
?L?xi=Σr,jδ(i,r,j)?L?yrj
判决函数δ(i,r,j)表示i节点是否被候选区域r的第j个节点选为最大值输出。代价对于xi的梯度等于所有相关的后一层梯度之和。
网络参数训练
参数初始化
网络除去末尾部分如下图，在ImageNet上训练1000类分类器。结果参数作为相应层的初始化参数。
其余参数随机初始化。
在调优训练时，每一个mini-batch中首先加入N张完整图片，而后加入从N张图片中选取的R个候选框。这R个候选框可以复用N张图片前5个阶段的网络特征。
实际选择N=2， R=128。
训练数据构成
N张完整图片以50%概率水平翻转。
R个候选框的构成方式如下：
与某个真值重叠在[0.5,1]的候选框
与真值重叠的最大值在[0.1,0.5)的候选框
分类与位置调整
第五阶段的特征输入到两个并行的全连层中（称为multi-task）。
cls_score层用于分类，输出K+1维数组p，表示属于K类和背景的概率。
bbox_prdict层用于调整候选区域位置，输出4*K维数组t，表示分别属于K类时，应该平移缩放的参数。
loss_cls层评估分类代价。由真实分类u对应的概率决定：
Lcls=-logpu
loss_bbox评估检测框定位代价。比较真实分类对应的预测参数tu和真实平移缩放参数为v的差别：
Lloc=Σ4i=1g(tui-vi)
g为Smooth L1误差，对outlier不敏感：
g(x)={0.5x2|x|-0.5|x|&1otherwise
总代价为两者加权和，如果分类为背景则不考虑定位代价：
L={Lcls+λLlocLclsu为前景u为背景
源码中bbox_loss_weights用于标记每一个bbox是否属于某一个类
全连接层提速
分类和位置调整都是通过全连接层(fc)实现的，设前一级数据为x后一级为y，全连接层参数为W，尺寸u×v。一次前向传播(forward)即为：
计算复杂度为u×v。
将W进行SVD分解，并用前t个特征值近似：
W=UΣVT≈U(:,1:t)?Σ(1:t,1:t)?V(:,1:t)T
原来的前向传播分解成两步：
y=Wx=U?(Σ?VT)?x=U?z
计算复杂度变为u×t+v×t。
在实现时，相当于把一个全连接层拆分成两个，中间以一个低维数据相连。
在github的源码中，这部分似乎没有实现。
实验与结论
实验过程不再详述，只记录结论
- 网络末端同步训练的分类和位置调整，提升准确度
- 使用多尺度的图像金字塔，性能几乎没有提高
- 倍增训练数据，能够有2%-3%的准确度提升
- 网络直接输出各类概率(softmax)，比SVM分类器性能略好
- 更多候选窗不能提升性能
同年作者团队又推出了Faster RCNN，进一步把检测速度提高到准实时，可以参看。
关于RCNN, Fast RCNN, Faster RCNN这一系列目标检测算法，可以进一步参考作者在15年ICCV上的讲座。
本文已收录于以下专栏：
相关文章推荐
1.只能输入数字和英文的：2.只能输入数字的：3.只能输入全角的：4.只能输入汉字的：也可以这样：  邮编的 ///^[1-9]/d{5}$//^/d{6}$/function checkPrice(...
摘要及引言SPP-NET大幅度提高了RCNN的训练速度，但是仍然一些问题，本文从以下问题出发提出了Fast R-CNN，进一步提高了速度和精度。
SPP-NET和RCNN的训练都是多阶段的过程：首先训...
人生苦短，都说必须python，那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..
本篇博文主要讲解2014年CVPR上的经典paper：《Region-based Convolutional Networks for Accurate Object Detection and Se...
reference link：http://blog.csdn.net/shenxiaolu1984/article/details/
Region CNN(RCNN)可以说是利用深...
深度学习用于目标检测的RCNN算法
最近准备从物体检测的角度来重新审视文本检测这个方向，所以看了下CNN大火以后的几篇经典文献，OverFeat，Region CNN， Dense Neural Pattern等等。
对这个方向来说，百...
进SSD，全称Single Shot MultiBox Detector，是Wei Liu在ECCV 2016上提出的一种目标检测算法，截至目前是主要的检测框架之一，相比Faster RCNN有明显的...
他的最新文章
讲师：许鹏
讲师：董付国
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)一、SqueezeNet介绍
论文提交ICLR 2017
论文地址：
代码地址：
注：代码只放出了prototxt文件和训练好的caffemodel，因为整个网络都是基于caffe的，有这两样东西就足够了。
在这里只是简要的介绍文章的内容，具体细节的东西可以自行翻阅论文。
MOTIVATION
在相同的精度下，模型参数更少有3个好处：
More efficient distributed training
Less overhead when exporting new models to clients
Feasible FPGA and embedded deployment
即高效的分布式训练、更容易替换模型、更方便FPGA和嵌入式部署。
鉴于此，提出3种策略：
Replace 3x3 filters with 1x1 filters.
Decrease the number of input channels to 3x3 filters.
Downsample late in the network so that convolution layers have large activation maps.
使用1x1的核替换3x3的核，因为1x1核参数是3x3的1/9；
输入通道减少3x3核的数量，因为参数的数量由输入通道数、卷积核数、卷积核的大小决定。因此，减少1x1的核数量还不够，还需要减少输入通道数量，在文中，作者使用squeeze layer来达到这一目的；
后移池化层，得到更大的feature map。作者认为在网络的前段使用大的步长进行池化，后面的feature map将会减小，而大的feature map会有较高的准确率。
FIRE MODULE
由上面的思路，作者提出了Fire Module，结构如下：
ARCHITECTURE
关于SqueezeNet的构建细节在文中也有详细的描述
为了3x3的核输出的feature map和1x1的大小相同，padding取1（主要是为了concat）
squeezelayer和expandlayer后面跟ReLU激活函数
Dropout比例为0.5，跟在fire9后面
取消全连接，参考NIN结构
训练过程采用多项式学习率（我用来做检测时改为了step策略）
由于caffe不支持同一个卷积层既有1x1，又有3x3，所以需要concat，将两个分辨率的图在channel维度concat。这在数学上是等价的
EVALUATION
二、SqueezeNet与Faster RCNN结合
这里，我首先尝试的是使用alt-opt，但是很遗憾的是，出来的结果很糟糕，基本不能用，后来改为使用end2end，在最开始的时候，采用的就是faster rcnn官方提供的zfnet end2end训练的solvers，又很不幸的是，在网络运行大概400步后出现：
loss = NAN
遇到这个问题，把学习率改为以前的1/10，解决。
直接上prototxt文件，前面都是一样的，只需要改动zfnet中的conv1-con5部分，外加把fc6-fc7改成squeeze中的卷积链接。
prototxt太长，给出每个部分的前面和后面部分：
name: "Alex_Squeeze_v1.1"
name: 'input-data'
type: 'Python'
top: 'data'
top: 'im_info'
top: 'gt_boxes'
python_param {
module: 'roi_data_layer.layer'
layer: 'RoIDataLayer'
param_str: "'num_classes': 4"
name: "conv1"
type: "Convolution"
bottom: "data"
top: "conv1"
convolution_param {
num_output: 64
kernel_size: 3
name: "drop9"
type: "Dropout"
bottom: "fire9/concat"
top: "fire9/concat"
dropout_param {
dropout_ratio: 0.5
name: "rpn_conv/3x3"
type: "Convolution"
bottom: "fire9/concat"
top: "rpn/output"
param { lr_mult: 1.0 }
param { lr_mult: 2.0 }
convolution_param {
num_output: 256
kernel_size: 3 pad: 1 stride: 1
weight_filler { type: "gaussian" std: 0.01 }
bias_filler { type: "constant" value: 0 }
name: "drop9"
type: "Dropout"
bottom: "fire9/concat"
top: "fire9/concat"
dropout_param {
dropout_ratio: 0.5
name: "rpn_conv/3x3"
type: "Convolution"
bottom: "fire9/concat"
top: "rpn/output"
param { lr_mult: 1.0 }
param { lr_mult: 2.0 }
convolution_param {
num_output: 256
kernel_size: 3 pad: 1 stride: 1
weight_filler { type: "gaussian" std: 0.01 }
bias_filler { type: "constant" value: 0 }
name: 'roi-data'
type: 'Python'
bottom: 'rpn_rois'
bottom: 'gt_boxes'
top: 'rois'
top: 'labels'
top: 'bbox_targets'
top: 'bbox_inside_weights'
top: 'bbox_outside_weights'
python_param {
module: 'rpn.proposal_target_layer'
layer: 'ProposalTargetLayer'
param_str: "'num_classes': 4"
name: "roi_pool5"
type: "ROIPooling"
bottom: "fire9/concat"
bottom: "rois"
top: "roi_pool5"
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625
name: "conv1_last"
type: "Convolution"
bottom: "roi_pool5"
top: "conv1_last"
param { lr_mult: 1.0 }
param { lr_mult: 1.0 }
convolution_param {
num_output: 1000
kernel_size: 1
weight_filler {
type: "gaussian"
name: "relu/conv1_last"
type: "ReLU"
bottom: "conv1_last"
top: "relu/conv1_last"
name: "cls_score"
type: "InnerProduct"
bottom: "relu/conv1_last"
top: "cls_score"
lr_mult: 1
lr_mult: 2
inner_product_param {
num_output: 5
weight_filler {
type: "gaussian"
bias_filler {
type: "constant"
name: "bbox_pred"
type: "InnerProduct"
bottom: "relu/conv1_last"
top: "bbox_pred"
lr_mult: 1
lr_mult: 2
inner_product_param {
num_output: 20
weight_filler {
type: "gaussian"
std: 0.001
bias_filler {
type: "constant"
name: "loss_cls"
type: "SoftmaxWithLoss"
bottom: "cls_score"
bottom: "labels"
propagate_down: 1
propagate_down: 0
top: "loss_cls"
loss_weight: 1
name: "loss_bbox"
type: "SmoothL1Loss"
bottom: "bbox_pred"
bottom: "bbox_targets"
bottom: "bbox_inside_weights"
bottom: "bbox_outside_weights"
top: "loss_bbox"
loss_weight: 1
后面一部分的结构如图：
注意红圈部分，以前的fc换成了squ中的卷积层，这样网络参数大大减少，因为我改动了rpn部分选proposal的比例和数量，共采用改了70种选择，所以最后训练出来的模型为17M，比初始化4.8M大很多，不过也已经很小了。
三、SqueezeNet+Faster RCNN+OHEM
OHEM无非就是多了一个readonly部分，不过加上之后效果会好很多，和上面的方式一致，放出一部分prototxt，其他的课自行补上。从rpn那里开始，前面部分和上面给出的完全一样
name: "rpn_cls_prob"
type: "Softmax"
bottom: "rpn_cls_score_reshape"
top: "rpn_cls_prob"
name: 'rpn_cls_prob_reshape'
type: 'Reshape'
bottom: 'rpn_cls_prob'
top: 'rpn_cls_prob_reshape'
reshape_param { shape { dim: 0 dim: 140 dim: -1 dim: 0 } }
name: 'proposal'
type: 'Python'
bottom: 'rpn_cls_prob_reshape'
bottom: 'rpn_bbox_pred'
bottom: 'im_info'
top: 'rpn_rois'
python_param {
module: 'rpn.proposal_layer'
layer: 'ProposalLayer'
param_str: "'feat_stride': 16"
name: 'roi-data'
type: 'Python'
bottom: 'rpn_rois'
bottom: 'gt_boxes'
top: 'rois'
top: 'labels'
top: 'bbox_targets'
top: 'bbox_inside_weights'
top: 'bbox_outside_weights'
python_param {
module: 'rpn.proposal_target_layer'
layer: 'ProposalTargetLayer'
param_str: "'num_classes': 4"
name: "roi_pool5_readonly"
type: "ROIPooling"
bottom: "fire9/concat"
bottom: "rois"
top: "pool5_readonly"
propagate_down: false
propagate_down: false
roi_pooling_param {
pooled_w: 6
pooled_h: 6
spatial_scale: 0.0625
name: "conv1_last_readonly"
type: "Convolution"
bottom: "pool5_readonly"
top: "conv1_last_readonly"
propagate_down: false
name: "conv1_last_w"
name: "conv1_last_b"
convolution_param {
num_output: 1000
kernel_size: 1
weight_filler {
type: "gaussian"
name: "relu/conv1_last_readonly"
type: "ReLU"
bottom: "conv1_last_readonly"
top: "relu/conv1_last_readonly"
propagate_down: false
name: "cls_score_readonly"
type: "InnerProduct"
bottom: "relu/conv1_last_readonly"
top: "cls_score_readonly"
propagate_down: false
name: "cls_score_w"
name: "cls_score_b"
inner_product_param {
num_output: 4
weight_filler {
type: "gaussian"
bias_filler {
type: "constant"
name: "bbox_pred_readonly"
type: "InnerProduct"
bottom: "relu/conv1_last_readonly"
top: "bbox_pred_readonly"
propagate_down: false
name: "bbox_pred_w"
name: "bbox_pred_b"
inner_product_param {
num_output: 16
weight_filler {
type: "gaussian"
std: 0.001
bias_filler {
type: "constant"
name: "cls_prob_readonly"
type: "Softmax"
bottom: "cls_score_readonly"
top: "cls_prob_readonly"
propagate_down: false
name: "hard_roi_mining"
type: "Python"
bottom: "cls_prob_readonly"
bottom: "bbox_pred_readonly"
bottom: "rois"
bottom: "labels"
bottom: "bbox_targets"
bottom: "bbox_inside_weights"
bottom: "bbox_outside_weights"
top: "rois_hard"
top: "labels_hard"
top: "bbox_targets_hard"
top: "bbox_inside_weights_hard"
top: "bbox_outside_weights_hard"
propagate_down: false
propagate_down: false
propagate_down: false
propagate_down: false
propagate_down: false
propagate_down: false
propagate_down: false
python_param {
module: "roi_data_layer.layer"
layer: "OHEMDataLayer"
param_str: "'num_classes': 4"
name: "roi_pool5"
type: "ROIPooling"
bottom: "fire9/concat"
bottom: "rois_hard"
top: "roi_pool5"
propagate_down: true
propagate_down: false
roi_pooling_param {
pooled_w: 7
pooled_h: 7
spatial_scale: 0.0625
name: "conv1_last"
type: "Convolution"
bottom: "roi_pool5"
top: "conv1_last"
lr_mult: 1.0
name: "conv1_last_w"
lr_mult: 1.0
name: "conv1_last_b"
convolution_param {
num_output: 1000
kernel_size: 1
weight_filler {
type: "gaussian"
name: "relu/conv1_last"
type: "ReLU"
bottom: "conv1_last"
top: "relu/conv1_last"
name: "cls_score"
type: "InnerProduct"
bottom: "relu/conv1_last"
top: "cls_score"
lr_mult: 1
name: "cls_score_w"
lr_mult: 2
name: "cls_score_b"
inner_product_param {
num_output: 4
weight_filler {
type: "gaussian"
bias_filler {
type: "constant"
name: "bbox_pred"
type: "InnerProduct"
bottom: "relu/conv1_last"
top: "bbox_pred"
lr_mult: 1
name: "bbox_pred_w"
lr_mult: 2
name: "bbox_pred_b"
inner_product_param {
num_output: 16
weight_filler {
type: "gaussian"
std: 0.001
bias_filler {
type: "constant"
name: "loss_cls"
type: "SoftmaxWithLoss"
bottom: "cls_score"
bottom: "labels_hard"
propagate_down: true
propagate_down: false
top: "loss_cls"
loss_weight: 1
name: "loss_bbox"
type: "SmoothL1Loss"
bottom: "bbox_pred"
bottom: "bbox_targets_hard"
bottom: "bbox_inside_weights_hard"
bottom: "bbox_outside_weights_hard"
top: "loss_bbox"
loss_weight: 1
propagate_down: false
propagate_down: false
propagate_down: false
propagate_down: false
结构图如下：
比前面训练的多一个readonly部分，具体可参考论文：
Training Region-based Object Detectors with Online Hard Example Mining
至此，SqueezeNet+Faster RCNN 框架便介绍完了，运行速度在GPU下大概是ZF的5倍，CPU下大概为2。5倍。
原文链接：
本文已收录于以下专栏：
相关文章推荐
文章链接，http://arxiv.org/abs/
代码链接，/DeepScale/SqueezeNet
目前文章还是第一版，所以内容上不...
http://blog.csdn.net/jiajunlee/article/details/
版权声明：本文为LEE Jiajun原创文章，转载请注明出处。
人生苦短，都说必须python，那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..
题目如下：
多组（不超过 5 组）数据。
每组输入数据分为三行，第一行有两个数字 n,m($0＜n,m\leq10000$)，分别表示集合 A 和集合 B 的元素个数。后两...
SqueezeNet是在论文Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level
accuracy with 50...
继续前面关于深度学习CNN经典模型的整理，之前介绍了CNN网络Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning(点击查看)的网络结构。本文讲一下最新...
欢迎转载，转载请注明：本文出自Bin的专栏blog.csdn.net/xbinworld。
技术交流QQ群：，欢迎对算法、技术感兴趣的同学加入。关于卷积神经网络CNN，网络和文献...
以下这些博文整理的以及相当全面，记录一下
SqueezeNet:
AlexNet-level accuracy with 50x fewer parameters and
原文链接：http://...
squeezenet出自2016论文SQUEEZENET:ALEXNET-LEVEL ACCURACY WITH 50X FEWER PARAMETERS AND
squeezenet主要...
机器学习算法与Python实践之（五）k均值聚类（k-means）http://blog.csdn.net/zouxy09        机器学习算法与Python实践这个...
关于SqueezeNet为何能够在达到AlexNet精度的基础之上还能够使模型的参数减小巨多的分析详情，参见SqueezeNet这篇文章，本文章的目的是在实际应用中如何引入SqueezeNet。设计基...
他的最新文章
讲师：许鹏
讲师：董付国
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)}

常信村百科网

目标检测faster rcnn c训练过程是为了什么

我要回帖

更多关于 caffe faster rcnn 的文章

更多推荐