分类网络总结

article/2024/5/21 21:59:50

 欢迎大家订阅我的专栏一起学习共同进步,主要针对25届应届毕业生

祝大家早日拿到offer! let's go

http://t.csdnimg.cn/dfcH3

目录

4. 经典分类网络与发展

4.1 AlexNet

4.2 VGGNet

4.3 GoogLeNet

Inception

4.4 ResNet

4.5 DenseNet

4.6 MobileNet

4.7 ShuffleNet

4.8 SENet(ImageNet最后一届竞赛的冠军,提出了SE结构)


经典分类网络与发展

pipeline:LeNet->AlexNet->Network in Network->VGGNet->GoogLeNet->ResNet->Inception->DenseNet->Xception->MobileNet->ShffleNet->SENet

每个标题上的超链接都是对应的论文,详细了解可以阅读论文

4.1 AlexNet

AlexNet模型有以下特点:

  1. 所有卷积层都使用ReLU作为非线性映射函数,使模型收敛速度更快
  2. 在多个GPU上进行模型训练,不但可以提高模型的训练速度,还能提升数据的使用规模
  3. 使用LRN对局部特征进行归一化,结果作为ReLU激活函数的输入能有效降低错误率
  4. 重叠最大池化(Overlapping max pooling),即池化范围z与步长s存在关系z > s ,避免平均池化(Average pooling)的平均效应
  5. 使用随机丢弃技术(Dropout)选择性地忽略训练中的单个神经元,避免模型的过拟合
4.2 VGGNet

VGGNet有以下特点:

  1. 整个网络使用同样大小的卷积核尺寸3 ×3和最大池化尺寸2 × 2 。
  2. 1 × 1卷积的意义主要在于线性变换,没有发生降维。
  3. 两个3 × 3 的卷积层串联相当于15 × 5 的卷积层。同样地,3个3 × 3 的卷积层串联效果相当于1个7 × 7 的卷积层。使得网络参数量更小,而且多层的激活函数使网络对特征学习能力更强。
  4. VGGNet先训练浅层的的简单网络,再复用该权重来初始化更深层网络,如此反复训练并初始化VGG,能够使训练时收敛的速度更快。
  5. 使用多尺度的变换对原始数据做数据增强,使得模型不易过拟合
4.3 GoogLeNet

GoogLeNet与VGG不同,该网络主要工作是探索了增加网络的宽度。论文提出了名为Inception 的结构来实现既能保持网络结构的稀疏性,又能利用密集矩阵的高计算性能。

GoogLeNet有以下特点:

  1. 提出了Inception 结构
  2. 任意nxn的卷积都可以通过1xn卷积后接nx1卷积来替代。实际上,作者发现在网络的前期使用这种分解效果并不好,还有在中度大小的feature map上使用效果才会更好。
  3. 挖掘了网络宽度可以降低网络计算量同时表现优异。GoogLeNet的计算效率明显高于VGGNet,大约只有500万参数,只相当于Alexnet的1/12(GoogLeNet的caffe model大约50M,VGGNet的caffe model则要超过600M)。
  4. Average pooling代替全连接层,有效减少参数
  5. 探索了1x1卷积的作用,用于升维和降维信息。
Inception

Inception_v1

输入被拷贝四份,在四条路径上进行传递。特点如下:

 采用大小不同的三种卷积核使得感受野大小不同,得到不同尺度的特征。

 使用1*1卷积核降低维度,减少计算瓶颈,增加网络层数,提高非线性。

 视觉信息在不同尺度上进行处理聚合,这样下一步可以从不同尺度提取特征。

 “Inception的作用就是替代了人工确定卷积层中过滤器的类型或者是否创建卷积层和池化层,让网络自己学习它具体需要什么参数。”

Inception_v2特点如下:

 把Inception-v1中5 ∗ 5 的卷积用2个3 ∗ 3的卷积替换,保持相同感受野的同时减少参数,加强非线性的表达能力。

 提出了Batch Normalization,如果激活函数是sigmoid,对于每个神经元,可以把逐渐向非线性映射的两端饱和区靠拢的输入分布,强行拉回到0均值单位方差的标准正态分布,即激活函数的兴奋区,在sigmoid兴奋区梯度大,即加速网络训练,还防止了梯度消失。

Inception_v3 特点如下:

 分解卷积核尺寸。一个是分解为对称的小的卷积核,即5 ∗ 5 的卷积核替换成2个3 ∗ 3 的卷积核。另一个是分解为不对称的卷积核,即将n ∗ n 的卷积核替换成1 ∗ n 和 n ∗ 1 的卷积核堆叠。

 上述结构使得:1. 降低计算量,2. 增加一层非线性,3. 可以处理更丰富的空间特征,增加特征的多样性。

 改变降低特征图尺寸的方式。分卷积通道与池化通道。

Inception-v4
 最大特点是与Resnet进行结合。

4.4 ResNet

 从VGG与GoogLeNet诞生后,实验研究发现深度CNN网络达到一定深度后再一味地增加层数并不能带来进一步地分类性能提高,反而会招致网络收敛变得更慢,分类准确率也变得更差。排除数据集过小带来的模型过拟合等问题后,发现过深的网络仍然还会使分类准确度下降。
 ResNet作者提出可能是因为更深的网络会伴随梯度消失/爆炸问题,从而阻碍网络的收敛。这种加深网络深度但网络性能却下降的现象被称为退化问题。于是ResNet提出了res-block结构,对于更深层次的模型:添加恒等映射(identity mapping)(就是跳跃结构,直接把信息恒等传递到下一层)。在这种情况下,更深的模型不应该产生比其对应的较浅的网络更高的训练误差。

原先网络输入x,希望输出H(x)。令H(x)=F(x)+x,网络只需学习输出一个残差F(x)=H(x)-x。当残差为0时,此时堆积层仅仅做了恒等映射,实际上残差不会为0,使得堆积层在输入特征基础上学习新的特征从而拥有更好性能。简化了学习过程,增强了梯度传播。

4.5 DenseNet

论文中提出的架构为了确保网络层之间的最大信息流,将所有层直接彼此连接。为了保持前馈特性,每个层从前面的所有层获得额外的输入,并将自己的特征映射传递到后面的所有层。该论文基于这个观察提出了以前馈的方式将每个层与其他层连接的密集卷积网络(DenseNet)
 
 DenseNet 是一种具有密集连接的卷积神经网络。在该网络中,任何两层之间都有直接的连接,也就是说,网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征图也会被直接传给其后面所有层作为输入。

DenseNet有以下特点:

 1.相比ResNet 拥有更少的参数数量

 2.旁路加强了特征的重用

 3.网络更易于训练,并具有一定的正则效果

 4.缓解了梯度消失(gradient vanishing)和模型退化(model degradation)的问题

4.6 MobileNet

MobileNet V1

 谷歌在2017年提出,专注于移动端或者嵌入式设备中的轻量级CNN网络。
 该论文最大的创新点是,提出了深度可分离卷积(depthwise separable convolution)。【DW卷积】
 使用RELU6作为激活函数,这个激活函数在float16/int8的嵌入式设备中效果很好,能较好地保持网络的鲁棒性。

MobileNet V2

在2018年,谷歌的又一力作。V2在V1的基础上,主要解决了V1在训练过程中非常容易特征退化的问题,引入了Inverted Residuals和Linear Bottlenecks。
所谓倒置残差块,如图所示,与残差块做对比。

残差块是先降维再升维,两头胖,中间瘦。倒残差结构就是 两头瘦,中间胖;
Linear Bottlenecks:在V1中 depthwise 中有0卷积的原因就是 Relu 造成的,换成 Linear 解决了这个问题;

MobileNet V3

v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、SE模块,提出了h-switch作为激活函数,利用NA(神经结构搜索)来搜索网络的配置和参数(NAS就是不需要人工调参,自动搜索,要先给出搜索空间和搜索方式)。

4.7 ShuffleNet

ShuffleNet是Face++提出的一种轻量化网络结构,主要思路是使用Group convolution和Channel shuffle改进ResNet,可以看作是ResNet的压缩版本。

Channel Shuffle
 
ShuffleNet的本质是将卷积运算限制在每个Group内,这样模型的计算量取得了显著的下降。然而导致模型的信息流限制在各个Group内,组与组之间没有信息交换,如图下图,这会影响模型的表示能力。因此,需要引入组间信息交换的机制,即Channel Shuffle操作。同时Channel Shuffle是可导的,可以实现end-to-end一次性训练网络。

4.8 SENet(ImageNet最后一届竞赛的冠军,提出了SE结构)

对于CNN网络来说,核心计算是卷积算子,通过卷积核从输入特征图学习到新特征图。从本质上讲,卷积是对一个局部区域进行特征融合,这包括空间上(H和W维度)以及通道间(C维度)的特征融合。

对于卷积操作,很大一部分改进工作是提高感受野,即空间上融合更多特征,或者是提取多尺度空间信息,如Inception网络的多分支结构。对于channel维度的特征融合,卷积操作基本上默认对输入特征图的所有channel进行融合。而MobileNet网络中的组卷积(Group Convolution)和深度可分离卷积(Depthwise Separable Convolution)对channel进行分组也主要是为了使模型更加轻量级,减少计算量。
SENet网络的创新点在于关注channel之间的关系,希望模型可以自动学习到不同channel特征的重要程度。为此,SENet提出了Squeeze-and-Excitation (SE)模块,如下图所示

SE模块首先对卷积得到的特征图进行Squeeze操作,得到channel级的全局特征(SENet提出Squeeze操作,将一个channel上整个空间特征编码为一个全局特征,采用global average pooling来实现),然后对全局特征进行Excitation操作(这里采用sigmoid形式的gating机制),学习各channel间的关系,得到不同channel的权重,最后乘以原来的特征图得到最终特征。本质上,SE模块是在channel维度上做attention或者gating操作,这种注意力机制让模型可以更加关注信息量最大的channel特征,而抑制不重要的channel特征。另外一点是SE模块是通用的,意味着其可以嵌入到现有的网络架构中。


http://www.ngui.cc/article/show-2039023.html

相关文章

尺取法知识点讲解

一、固定长度的情况: 最小和(sum) 输入N个数的数列,所有相邻的M个数的和共有N-M1个,求其中的最小值。 输入格式 第1行,2个整数N,M,范围在[3…100000],N>M。 第2行,有N个正…

文本批量高效编辑管理,支持将文本进行自定义行数进行拆分,实现文本的高效管理

在信息爆炸的时代,文本文件的管理和编辑成为了许多工作和学习中不可或缺的一部分。面对大量的文本内容,如何高效地进行编辑和管理成为了一个挑战。现在,我们为您带来了一款强大的批量文本编辑管理工具,支持自定义行数拆分&#xf…

【华为OD机试】结队编程(贡献法计数—JavaPythonC++JS实现)

本文收录于专栏:算法之翼 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目二.解题思路三.题解代码Python题解代码JAVA题解代码C/C++题解代码JS题解代码四.代码讲解(Ja…

C语言-rand+srand+time的使用

1.随机数字的生成 rand 随机数字的生成需要rand&#xff0c;这里需要知道的是rand需要头文件是stdlib&#xff0c;也就是#include<stdlib.h>。 这里的循环可以用for 所以我们可以在主函数里面写出 #include<stdio.h> #include<stdlib.h>//rand头文件int …

Vivado综合属性SRL_STYLE怎么用?

“SRL_STYLE”属性是Vivado中用于控制移位寄存器&#xff08;Shift Register Logic, SRL&#xff09;映射方式的关键属性。 本文将详细介绍SRL_STYLE的工作原理、可选值及其在实际设计中的应用代码示例。 一、什么是SRL_STYLE&#xff1f; SRL_STYLE属性用于指导Vivado综合工…

Rabbit加密算法:性能与安全的完美结合

title: Rabbit加密算法&#xff1a;性能与安全的完美结合 date: 2024/4/19 19:51:30 updated: 2024/4/19 19:51:30 tags: Rabbit加密对称加密流密码密钥调度安全分析实际应用加密算法 第一章&#xff1a;引言 1. 加密算法的基本概念和应用 加密算法是一种通过对数据进行转换…

Django中的实时通信:WebSockets与异步视图的结合

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在现代Web应用程序中&#xff0c;实时通信已经成为了必不可少的功能之一。无论是在线聊天、…

ZJGSU 1850 不同出栈情况

描述 假设有n个元素依次进栈&#xff0c;给出他们可能的不同的出栈情况。 输入 3 1 2 3 输出 1 2 3 1 3 2 2 1 3 2 3 1 3 2 1 输入样例 1 3 1 2 3 输出样例 1 1 2 3 1 3 2 2 1 3 2 3 1 3 2 1 #include <stdio.h>int tot, res, sta, n; int r[2005], s[2005…

2-内核开发-第一个内核Hello模块开发案例

2-内核开发-第一个内核Hello模块开发案例 课程简介&#xff1a; Linux内核开发入门是一门旨在帮助学习者从最基本的知识开始学习Linux内核开发的入门课程。该课程旨在为对Linux内核开发感兴趣的初学者提供一个扎实的基础&#xff0c;让他们能够理解和参与到Linux内核的开发过程…

Typecho主题 - 一款视频ZeVideo开源主题

ZeVideo最为一款免费开源的视频主题&#xff0c;本次更新我们重构了代码结构。 全站pjax无刷新加载&#xff0c;支持根据系统进入深色模式&#xff0c;或手动切换&#xff0c;支持记录播放历史功能&#xff0c;首页布局支持自定义&#xff0c;主题设置支持修改logo&#xff0c…