1. 前言¶

PFLD全称A Practical Facial Landmark Detector是一个精度高，速度快，模型小的人脸关键点检测模型。在移动端达到了超实时的性能（模型大小2.1Mb，在Qualcomm ARM 845 处理器上达到140fps），作者分别来自武汉大学，天津大学，腾讯AI Lab，美国天普大学，有较大的实用意义。

2. 挑战¶

人脸关键点检测作为人脸相关应用中的一个基础任务面临了很多挑战，包括检测精度，处理速度，模型大小这些因素都要考虑到，并且在现实场景中很难获取到质量非常高的人脸，所以人脸关键点检测主要面临下面几个挑战：

局部变化：现实场景中人脸的表情，广告，以及遮挡情况都有较大的变化，如Figure1所示
全局变化：姿态和成像质量是影响图像中人脸的表征的两个主要因素，人脸全局结构的错误估计将直接导致定位不准
数据不平衡：不平衡的数据使得算法模型无法正确表示数据的特征
模型的性能：由于手机和嵌入式设备计算性能和内存资源的限制，必须要求检测模型的size小处理速度快

3. 创新点¶

总的来说，本文设计的PFLD在复杂情况下也可以保持高精度。针对全局变化，PFLD采用辅助网络来估计人脸样本的集合信息。针对数据不平衡，设计新的损失函数，加大对难样本的惩罚力度。使用multi-scale fc层扩展感受野精确定位人脸的特征点。使用Mobilenet Block构建网络的Backbone提升模型的推理速度及减少模型的计算量。

4. PFLD网络结构¶

PFLD的网络结构如下图所示：

Figure2 PFLD的整体结构

其中黄色虚线圈起来的部分表示主分支网络，用于预测关键的位置。绿色虚线圈起来的是head pose辅助网络。这样在训练关键点回归的同时预测人脸姿态，从而修改损失函数，使得模型更加关注那些稀有以及姿态角度过大的样本，从而提高预测的精度。

可以看到在主分支网络中，PFLD并没有采用VGG16，ResNet50等大模型。但为了增强模型的表达能力，对MobilenetV2的输出特征进行了结构上的修改，如Figure2中主分支网络的右边所示。PFLD融合了3个尺度的特征来增加模型的表达能力。

4.1 损失函数设计¶

我们知道一般的回归损失是MSE或者Smooth L1 Loss，但它们都难以应对数据不均衡的情况，以MSE Loss为例，损失函数可以写成：

公式1

其中 $M$ 表示人脸样本的数量， $N$ 表示每张人脸预设的需要检测的特征点数目， $||.||$ 在本文表示L2距离， $\gamma_n$ 表示不同类型样本的不同权重。

而RetinaNet中提出的Focal Loss可以较好的应对二分类中的数据不均衡情况，受到这一启发，作者设计了下面的损失函数来缓解数据不均衡的情况：

PFLD loss

$\sum_{c=1}^Cw_n^c\sum_{k=1}^K(1-cos\theta_{n}^k)$ 代表权重 $\gamma_n$ 。
$\theta^1$ , $\theta^2$ , $\theta^3$ ( $K=3$ )分别表示GT和Prediction在yaw、pitch、roll三种角度之间的偏差，角度越大 $cos$ 值越小，权重越大。其中pitch代表上下翻转，yaw代表水平翻转，roll代表平面内旋转，都表示人脸的一种姿态。
$C$ 表示不同的类别的人脸: 正脸、侧脸、抬头、低头、表情以及遮挡情况， $w_n^c$ 根据样本类别分数进行调整，论文中使用的分数样本数的导数计算的。
$d_n^m$ 由主分支网络计算得到， $\theta_n^k$ 由辅助网络计算得到，然后由Loss来建立联系。

4.2 辅助网络的细节¶

PFLD在训练过程中引入了一个辅助网络用以监督PFLD网络模型的训练，如Figure2中绿色虚线里的部分。该子网络仅在训练的阶段起作用，在推理阶段不起作用。

该子网络对每一个输入的人脸样本进行三维欧拉角估计，它的Ground Truth由训练数据中的关键点信息进行估计，虽然估计不太精确，但是作为区分数据分布的依据已经足够了，因为这个辅助网络的目的是监督和辅助关键点检测主分支。另外需要注意的一点是，这个辅助网络的输入不是训练数据，而是PFLD主分支网络的中间输出（第4个Block）。