如何将Transformer应用在移动端

前言¶

在本次工作中，我们研究了移动端的Vision Transformer模型，我们猜想Vision Transformer Block中的MSA(多头注意力)和FFN(前馈层)更适合处理High-level的信息。我们提出的irregular patch embedding能在patch中以不同的感受野，提取丰富的信息。

最终这些处理过的patch经过adaptive patch merging模块得到最终分类结果。经过这些改进，我们在DeiT的baseline基础上，能够提升9%的精度，并且也超越了其他Vision Transformer模型。

介绍¶

在现有的Vision Transformer模型上，我们发现降低模型的FLOPS，其性能会严重下降。

以DeiT为例，从DeiT-Base到DeiT-Small,FLOPS降为原来的¼，性能损失了2%

而从DeiT-Small到DeiT-Tiny，FLOPS也是降为原来的¼，但是性能损失了7%，其他的vit架构也是类似。所以我们猜测这些架构都是朝着有较强的特征提取能力和避免过拟合能力的大模型进行优化，从而导致信息提取效率较低。

ViT具有两个重要的模块：

MSA多头注意力，用于各个独立Patch之间的交互，能够整合high-level信息，但是不能提取patch内的low-level信息
FFN，有多个全连接层组成，对于提取low-level图像特征并不高效

也有一些ViT架构尝试将CNN的金字塔式架构引入(如swin，pvt)，但在我们的工作里，我们展示了瓶颈可能并不在MSA和FFN这里，通过改进Patch Embedding和Patch Merging，我们得到了不小的提升。

Irregular Patch Embedding¶

我们分三步来介绍Irregular Patch Embedding的设计 1. 使用卷积来做Patch Embedding，现有的论文都已经证明了卷积擅于提取low-level局部特征，为了进一步压缩计算量，我们使用了depthwise+pointwise的组合。 2. 我们发现原始的14x14的patch对于移动端vit是难以处理的。一方面，如果我们想减少patch的通道数和Block的数目，那剩下的模块是无法处理如此多的patch。另一方面，我们可以通过减少patch数目，提高通道数，来得到一个平衡。 3. DeiT把图片切为14x14patch，每个patch都有同样的感受野。而对于不同的图片，可能需要high-level信息（比如区分狗和猫），也有可能需要low-level信息（比如区分悬崖和湖边）