1. 摘要¶

随着深度学习发展，大量方法提出使得人脸检测性能在近些年提高。而针对PyramidBox，我们引入了相关策略去提升整个模型性能，包括以下

更平衡的data-anchor-sampling，为了得到更趋于正态分布的人脸
设计了一个Dual-PyramidAnchors，引入了一个新的锚框损失
设计了一个Dense Context 模块，不仅仅关注更大的感受野，还考虑了如何更有效的传递信息流

基于上面几点改进，让PyramidBox++在hard人脸性能上得到了SOTA效果

2. Balanced-data-anchor-sampling¶

先回顾下PyramidBox里面data-anchor-sampling的做法

整个网络锚框大小设定如下

也就是16，32，64.......512

然后设

$s_{face} 为人脸框大小\\ s_{anchor_i}为第i个锚框大小\\ i_{anchor} = argmin_iabs(s_{anchor_i}-s_{face})$

换句话说， $i$ 是比人脸框稍大的那个锚框的索引index

然后我们从

随机选取一个数字 $i_{target}$ ，min中的 $5$ 是因为我们锚框最大的index就是5

再设置一个变量 $S_{target}$ ，并随机从 $(s_{i_{target}}/2, s_{i_{target}}*2)$ 选取一个数

最后再与人脸区域相除，得到最后的缩放scale

举个例子很容易看懂

假设我的人脸大小是52x52
那么相邻两个锚框大小分别是32x32 和 64x64
经过比较52距离64更近一点，因此ianchor = 2（因为64x64这个锚框对应的i是2）
然后在set里面就是(0, 1, 2, 3)，随机选取1个数字i_target，假设这里选到的是1
starget = random(s1/2, s1*2) = random(16, 64) 假设这里选到的是48
s* = 48/52 = 0.923
这就是最终的缩放大小
缩放后再去crop出640x640的图片

但我们发现这种采样方法往往会引入过多的小人脸，这一定程度上导致数据不均衡

因此我们引入了一个更均衡的采样方法

我们以等概率选择原始anchor锚框
然后以等概率在该锚框附近区间选择大小

相较于原始的DAS采样方法，数据中放大人脸的概率会更高，这就解决了数据不平衡的问题

最终的采样方法为⅘的概率BDAS和⅕的概率SSD采样（具体代码没开源，这里并不是特别的清楚）

3. Dual-Pyramid Anchors¶

之前的PyramidAnchor得到了一系列锚框，包含了头部，肩部，身体部位等大量上下文信息，通过高层级信息对人脸检测实现了自监督，这对于辅助人脸检测的提升是巨大的，我们参考了腾讯优图实验室的DSFD算法，引入了双路网络加入检测。显然这带来了一定计算量的提升，因此我们在推理阶段，仅选取了第二个网络的面部分支，所以在运行的时候并没有带来额外的开销

这里提一下DSFD算法，下面是其结构图