看了不少的目标检测论文了，个人认为多数论文的出发点就两个，一是感受野，二是特征融合。此外，解决数据不平衡和轻量化也是另外两个重要的方向。今天要讲解的RFBNet就是从感受野角度来改善了SSD检测器。

1. 前言¶

今天为大家科普一篇ECCV 2018的一篇目标检测网络RFBNet，论文全名为：Receptive Field Block Net for Accurate and Fast Object Detection 。这篇论文主要的贡献点主要是在SSD网络中提出了一个Receptive Field Block (RFB) 模块，RFB模块主要是在Inception的基础上加入了空洞卷积层从而有效的增大了感受野。另外，RFB模块是嵌在SSD上的，所以检测的速度比较快，精度比SSD更高。

2. RFB模块¶

RFB模块的效果示意图如Figure2所示，其中虚线部分就是指RFB模块。

Figure2. RFB效果示意图

RFB模块主要有两个特点：

RFB模块有多个分支，每个分支的第一层都由特定大小卷积核的卷积核构成，例如图上的 $1\times 1$ , $3\times 3$ ， $5\times 5$ 。
RFB模块引入了空洞卷积，主要作用是为了增加感受野，空洞卷积之前是应用在分割网络DeepLab中，这里将其应用在检测任务中，以获得更大的感受野，可以更好的编码空间长距离语义。

在RFB模块中，最后将不同尺寸和感受野的输出特征图进行Concat操作，以达到融合不同特征的目的。在Figure2中，RFB模块中使用三种不同大小和颜色的输出叠加来展示。在Figure2的最后一列中将融合后的特征与人类视觉感受野做对比，从图中看出是非常接近的，这也是这篇论文的出发点。

3. 两种RFB结构示意图¶

下面的Figure4展示了RFBNet的两种结构。

RFBNet的两种结构

Figure4(a)表示RFB结构，整体上借鉴了Inception的思想。主要不同点在于引入3个空洞卷积层。
Figure4(b)表示RFB-s结构。RFB-s和RFB相比主要有两个改进，一方面用 $3\times 3$ 卷积层代替 $5\times 5$ 卷积层，另一方面用 $1\times 3$ 和 $3\times 1$ 卷积层代替 $3\times 3$ 卷积层，主要目的应该是为了减少计算量，类似Inception后面的版本对Inception结构的改进。