跳转至

在这里插入图片描述

开篇的这张图代表 ILSVRC 历年的 Top-5 错误率,我会按照以上经典网络出现的时间顺序对他们进行介绍,同时穿插一些其他的经典 CNN 网络。

前言

这是卷积神经网络学习路线的第八篇文章,我们来回顾一下经典网络中的 ZF-Net 和 VGGNet。

稳中求胜 - ZFNet

ZFNet 是 ImageNet 分类任务 2013 年的冠军,其在 AlexNet 的结构上没有做多大改进。首先作者 Matthew D Zeiler 提出了一种新的可视化技术,该技术可以深入了解中间特征图的功能和分类器的操作。这一点我在卷积神经网络学习路线(一)| 卷积神经网络的组件以及卷积层是如何在图像中起作用的?详细介绍过。最终基于特征图的可视化结果发现以下两点:

  • AlexNet 第一层中有大量的高频(边缘)和低频(非边缘)信息的混合,却几乎没有覆盖到中间的频率信息。
  • 由于第一层卷积用的步长为 4,太大,导致了有非常多的混叠情况,学到的特征不是特别好看,不像是后面的特征能看到一些纹理、颜色等。

因此作者针对第一个问题将 AlexNet 的第一层的卷积核大小从11×11 改成7×7。同时针对第二个问题将第一个卷积层的卷积核滑动步长从4 改成2

同时,ZFNet 将 AlexNet 的第345 卷积层变为384384256。然后就完了,可以看到 ZFNet 并没有特别出彩的地方,因此这一年的 ImageNet 分类竞赛算是比较平静的一届。

ZFNet 的详细网络结构如下图:

在这里插入图片描述

ZFNet 的代码实现如下:

def ZF_Net():
    model = Sequential()  
    model.add(Conv2D(96,(7,7),strides=(2,2),input_shape=(224,224,3),padding='valid',activation='relu',kernel_initializer='uniform'))  
    model.add(MaxPooling2D(pool_size=(3,3),strides=(2,2)))  
    model.add(Conv2D(256,(5,5),strides=(2,2),padding='same',activation='relu',kernel_initializer='uniform'))  
    model.add(MaxPooling2D(pool_size=(3,3),strides=(2,2)))  
    model.add(Conv2D(384,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))  
    model.add(Conv2D(384,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))  
    model.add(Conv2D(256,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))  
    model.add(MaxPooling2D(pool_size=(3,3),strides=(2,2)))  
    model.add(Flatten())  
    model.add(Dense(4096,activation='relu'))  
    model.add(Dropout(0.5))  
    model.add(Dense(4096,activation='relu'))  
    model.add(Dropout(0.5))  
    model.add(Dense(1000,activation='softmax'))  
    return model

越来越深 - VGGNet

在 2014 年的 ImageNet 挑战赛上,牛津大学的 VGG(Visual Geometry Group)Net 赢得了定位任务的关娟和分类任务的亚军。VGGNet 相比于前面的 AlexNet,仍然沿用了卷积加全连接的结构,但深度更深。VGGNet 的论文全名为:Very Deep Convolutional Networks for Large-Scale Visual Recognition》。

我们来看一下 VGGNet 的具体网络结构:

在这里插入图片描述

这个表格有意思了啊,他分为AALRNBCDE 5 种网络。这是因为当时为了解决初始化权重的问题,VGG 使用的是预训练的方式,即先训练一部分小网络,然后确保这部分网络收敛之后再在这个基础上逐渐加深。并且当网络在 D 阶段 (VGG-16) 效果是最好的,E 阶段 (VGG-19) 次之。VGG-16 指的是网络的卷积层和全连接层的层数为16。接下来我们仔细看一下 VGG-16 的结构图:

在这里插入图片描述

从上图可以看到网络的第一个卷积层的通道数为64,然后每一层 Max Pooling 之后卷积层的通道数都成倍的增加,最后接看三分全连接层完成分类任务。总的来说 VGGNet 的贡献可以概括如下两点:

  • 所有隐藏层都使用了 ReLU 激活函数,而不是 LRN(Local Response Normalization),因为 LRN 浪费了更多了内存和时间并且性能没有太大提升。
  • 使用更小的卷积核和更小的滑动步长。和 AlexNet 相比,VGG 的卷积核大小只有3×31×1 两种。卷积核的感受野很小,因此可以把网络加深,同时使用多个小卷积核使得网络总参数量也减少了。

其中3×3 卷积核相比于一个大尺寸的卷积核有更多的非线性函数,使得模型更有判别性。同时,多个3×3 层比一个大的卷积核参数更少,例如假设卷积层的输出特征图和输出特征图的大小分别是C1,C2,那么三个3×3 卷积核的参数为3×3×3×C1×C2=27C1C2。而一个7×7 的卷积核参数为7×7×C1×C2。而至于为什么33×3 卷积核可以代替一个7×7 卷积核,这是因为这两者的感受野是一致的,并且多个3×3 小卷积核非线性更多,效果更好。

1×1 卷积的引入是在不影响输入输出维数的情况下,对输入进行线性形变,然后通过 Relu 进行非线性处理,增加网络的非线性表达能力。

VGG-16 的代码实现如下:

def VGG_16():   
    model = Sequential()

    model.add(Conv2D(64,(3,3),strides=(1,1),input_shape=(224,224,3),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(64,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(MaxPooling2D(pool_size=(2,2)))

    model.add(Conv2D(128,(3,2),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(128,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(MaxPooling2D(pool_size=(2,2)))

    model.add(Conv2D(256,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(256,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(256,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(MaxPooling2D(pool_size=(2,2)))

    model.add(Conv2D(512,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(512,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(512,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(MaxPooling2D(pool_size=(2,2)))

    model.add(Conv2D(512,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(512,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(Conv2D(512,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
    model.add(MaxPooling2D(pool_size=(2,2)))

    model.add(Flatten())
    model.add(Dense(4096,activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(4096,activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(1000,activation='softmax'))

    return model

后记

今天讲解了经典网络 ZFNet 和 VGGNet,让我们至少明白了一个东西,神经网络在 2014 年这个时期是在往更深的角度去发展。同时小卷积核的堆叠可以取代大卷积核。

卷积神经网络学习路线往期文章


欢迎关注我的微信公众号 GiantPandaCV,期待和你一起交流机器学习,深度学习,图像算法,优化技术,比赛及日常生活等。

图片.png


本文总阅读量145