2016 - 2024

感恩一路有你

图像卷积原理及运算方法 卷积神经网络有哪些重要的技巧细节?

浏览量:3640 时间:2023-05-20 16:13:54 作者:采采

卷积神经网络有哪些重要的技巧细节?

除了带你手把手学习深度学习,李牧神还带你深入挖掘卷积神经网络的各种实用技巧。最近,AWS研究人员研究了一系列训练过程和模型架构改进方法。他们在多个神经网络架构和数据集上对它们进行了评估,并研究了它们对最终模型准确性的影响。

自2012年AlexNet显示出巨大的威力以来,研究人员提出了各种卷积架构,包括VVG、NiN、Inception、ResNet、DenseNet和NASNet,我们会发现模型的精度在稳步提高。

但现在这些改进不仅仅来自于架构的修订,还来自于训练过程的改进,包括损失函数的优化、数据预处理方法的细化和优化方法的改进。在过去的几年中,卷积网络和图像分割有了大量的改进,但大多数只是在文献中作为实现细节简要提及,而其他技能只能在源代码中找到。

在本文中,李牧和其他研究人员研究了一系列训练过程和方法来改进模型结构。这些方法可以提高模型的精度,并且几乎不增加任何计算复杂度。他们中的大多数是次要的技能与技巧,如修改卷积步长或调整学习率策略。一般来说,采用这些技术会有很大的不同。因此,研究人员希望在多个神经网络架构和数据集上对它们进行评估,并研究它们对最终模型准确性的影响。

研究员 实验表明,某些技术可以显著提高精度,将它们结合起来可以进一步提高模型的精度。研究人员还比较了基线ResNet,ResNet与各种技术,以及其他相关的神经网络。下面的表1显示了所有的精度比较。这些技术将ResNet50的Top-1验证准确率从75.3%提高到79.29%,优于其他更新和改进的网络架构。此外,研究人员还表示,这些技术中的许多可以转移到其他领域和数据集,如对象检测和语义分割。

论文:用卷积神经网络进行图像分类的技巧包

纸张地址:

摘要:图像分类研究的最新进展可归因于训练过程的调整,如数据增强和优化方法的改变。然而,在这些文档中,大多数微调方法要么是简单的实现细节,要么只能在源代码中看到。在本文中,我们将测试一系列微调方法,并通过控制变量来评估它们对最终精度的影响。我们将表明,通过结合不同的微调方法,我们可以显著改善各种CNN模型。比如我们会在ImageNet上训练R。esNet-50的top-1验证准确率从75.3%提高到79.29。这项研究还表明,图像分类精度的提高可以在其他应用领域实现更好的迁移学习性能,如对象检测和语义分割。

2培训流程

目前我们基本都是用小批量的SGD或者它的变种来训练神经网络。算法1展示了SGD的模板流程(有兴趣的读者可以参考原文)。使用广泛使用的ResNet实现作为我们的基线,培训过程主要分为以下六个步骤:

随机采样一张图片,解码成32位原始像素浮点值,每个像素值的取值范围为[0,255]。

以[3/4,4/3]为长宽比,以[8%,100%]为比例,随机切割矩形区域,然后缩放成224*224的正方形图。

以0.5的概率随机水平翻转图像。

系数从均匀分布[0.6,1.4]中提取,并用于缩放色调和亮度。

从正态分布N (0,0.1)中采样一个系数,以添加PCA噪声。

分别减去(123.68,116.779,103.939)和除以(58.393,57.12,57.375)得到归一化的RGB三个通道。

经过六个步骤,就可以训练验证了。下面显示了基线模型的准确性:

表2:在文献和我们的基线模型中达到的验证精度。注意,Inception V3的输入图像尺寸是299*299。

3高效培训

随着GPU等硬件的普及,很多与性能相关的取舍或最优选择都发生了变化。在这一章中,我们研究了多种可以利用低精度和大规模训练的技术,它们都不会损害模型的精度,甚至有些技术可以同时提高精度和训练速度。

3.1大规模培训

对于凸优化问题,随着批量的增加,收敛速度会下降。人们已经知道神经网络会有类似的实证结果[25]。换句话说,对于相同的历元数,大批量训练的模型的验证精度会低于小批量训练的模型。因此,有许多方法和技术旨在解决这个问题:

线性扩展学习率:较大的批量会降低梯度的噪声,可以提高学习率加快收敛。

学习率预热:在预热的启发式方法中,我们一开始使用较小的学习率,当训练过程趋于稳定后,再切换回初始的学习率。

零γ:注意,ResNet块的最后一层可以是批处理规范化层(BN)。在零γ启发式方法中,我们在所有剩余块的末尾为BN层初始化γ0。因此,在一些残差块只返回输入值,这意味着网络的层数更少,在初始阶段更容易训练。

无偏衰减:无偏衰减启发式方法只对卷积层和全连通层应用权重衰减,其他如BN中的γ和β不衰减。

表4:每个有效的训练启发式算法对4:ResNet-50的准确性影响。

3.2低精度训练

但是,新的硬件可能为较低精度的数据类型增强了算术逻辑单元。虽然具有性能优势,但精度降低的范围较窄,因此可能会超出范围,干扰训练进度。

表3:基线(BS 256和FP32)和更高效的硬件设置(BS 1024和FP16)之间3:ResNet-50的训练时间和验证精度比较。

4种型号变体

我们将简要介绍ResNet架构,尤其是与模型变化调整相关的模块。ResNet网络由一个输入主干、四个后续级和一个最终输出层组成,如图1所示。输入干线具有7×7卷积,并且有64个步长为2的输出通道,其后是步长为2的3 ×3最大池层。输入柄将输入宽度和高度减少了4倍,并将其通道大小增加到64。

从阶段2开始,每个阶段从下采样块开始,后面是几个残差块。在下采样块中,有路径A和B..路径A有三个卷积,卷积核分别是1×1、3×3和1×1。第一个卷积的步幅为2,以将输入长度和宽度减半,最后一个卷积的输出通道是前两个的4倍,称为瓶颈结构。路径B使用步长为2的1×1卷积将输入形状转换为路径A的输出形状,因此我们可以对两条路径的输出求和,以获得下采样模块的输出。残差块类似于下采样块,除了仅使用步长为1的卷积。

我们可以改变每一级的残差块个数,得到不同的ResNet模型,比如ResNet-50和ResNet-152,其中的数字代表网络中卷积层数。

图1:1:ResNet-50的架构。图中显示了卷积层的卷积核大小、输出通道大小和步幅大小(默认值为1),池层也类似。

图2:三种ResNet变体。ResNet-B修改了ResNet的下采样模块。ResNet-C进一步修改了输入主干。在此基础上,ResNet-D再次修改了降采样块。

表5:ResNet-50与三个模型变量在模型大小(参数数量)、FLOPs和ImageNet验证精度(top-1、top-5)方面的比较。比较一下。

5改进培训方法

5.1余弦学习率衰减

Loshchilov等人[18]提出了余弦退火策略,其简化版本根据余弦函数将学习率从初始值降低到零。假设总批次数为t(忽略预热阶段),那么在批次t中,学习率η_t计算如下:

其中η是初始学习速率,我们称这种方案为余弦衰减。

图3:用预热方案可视化学习率的变化。上图:批量为1024的余弦衰减和迭代衰减方案。下图:两种方案的前1名验证精度曲线。

5.2标签平滑

标签平滑的想法最初是为了训练Inception-v2而提出的[26]。它将真实概率的结构改为:

其中ε是小常数,k是标签总数。

图4:4:ImageNet上标签平滑效果的可视化。Top:当ε增大时,目标品类与其他品类的理论差距减小。下图:最大预测值与其他类别平均值差距的经验分布。显然,通过标签平滑,配送中心处于理论值,极值较少。

5.3知识升华

在知识提炼[10]中,我们使用教师模型来帮助训练当前模型(称为学生模型)。教师模型通常是精度更高的预训练模型,所以通过模仿,学生模型可以在保持模型复杂度不变的情况下,提高自身的精度。一个例子是使用ResNet-152作为教师模型来帮助训练ResNet-50。

5.4混合培训

在mixup中,我们一次随机采样两个样本(x_i,y_i)和(x_j,y_j)。然后,我们通过这两个样本的加权线性插值来构造新的样本:

其中λ∈[0,1]是从β(α,α)分布中提取的随机数。在混合训练中,我们只使用新样本(x帽,y帽)。

5.5实验结果

表ImageNet验证的精度是通过改进栈训练方法得到的。第3节描述了基线模型。

6迁移学习

6.1目标检测

表8:在Pascal VOC上评估各种预训练基本网络的fast-RCNN性能。

6.2语义分割

表9:评估ADE20K上各种基本网络的FCN性能。

冈萨雷斯的《数字图像处理》过时了吗?

冈萨雷斯 《数字图像处理》过时了吗?数字图像处理一点都没有过时。不仅没有过时,还以其经典的作用成为很多高校的必修课。《数字图像处理》的冈萨雷斯,作为第一本书的数字图像处理,易于理解和说明。,概念清晰,通俗易懂,已成为许多高校相关专业教学和科技工作者的首选书籍。许多与数字图像处理相关的书籍都或多或少地借鉴了这本书,而《Gonzal《数字图像处理》》对同领域的其他教材影响很大。

这本书于1977年首次出版。它是作者在大四学生和研究生讲义的基础上编写的。当时出版的书虽然只有七章,但很受学生和老师的欢迎。此后,这本书与时俱进,分别于1988年、1992年和2002年再版。每次出版时,都不断修改,增加了许多内容。最新的中文译本于2011年在《数字图像处理(第三版)》出版。

一本好的工科书,一定是理论清晰,能应用于实际生产的。冈萨雷斯的《数字图像处理》也是如此。这本书由12章组成。除了第一章的介绍,第二章到第十二章分别介绍了数字图像基础、灰度变换与空间滤波、频域滤波、图像恢复与重建、彩像处理、小波与多分辨率处理、图像压缩、形态学图像处理、图像分割、表示与描述、目标识别。可以说,这本书全面系统地讲述了关于数码影像的各方面知识。

这本书侧重于基础认知还是工程实践?应该说数字图像处理这门学科是一门理论与实践紧密结合的学科。一切理论都是以实际情况为研究对象,其理论脱胎于实际,作用于实际生产。而且因为数字图像处理是借助数字计算机发展起来的,所以对实际操作的要求不是很高。不像理论物理领域的研究,大部分理论研究都是推测,建一个粒子对撞机做一个实验就要几百亿美元。数字图像处理可以通过数字计算机方便地应用于工程实践。所以数字图像处理的理论与工程实践结合紧密,相对操作也很简单,不需要真正区分理论与工程实践。

这本书里的方法在数字图像处理的实际工程应用中占多少比重?书中介绍的内容都是基于工程实践,而不是架空的理论研究。简而言之,书中介绍的方法和研究的内容都是过去工程师使用的方法,研究的内容也是实际生产中遇到的问题。因此它的所有理论都被广泛应用于工程实践中。

作为一个经典,冈萨雷斯 《数字图像处理》基本上没有缺点。如果非要挑毛病的话,中译本《《数字图像处理(第三版)》》中一些小细节的翻译可能不尽如人意,但总的来说,还是不错的。

如果在数字图像处理领域有更好的书推荐,有什么推荐?如果只是在数字图像处理领域,那么这本书就是经典。如果你对冈萨雷斯感兴趣 《数字图像处理》的所有内容,所以没有必要再去读其他关于数字图像处理的书。然而,现在数字图像处理的发展非常迅速,一些新的方法和理论不断涌现。比如现在流行的卷积神经网络和深度学习。然而,卷积神经网络和深度学习并不是要取代传统的数字图像处理,它们之间的关系不是竞争关系,而是扩展了 "战友 "整个数字图像处理领域中的关系。应该说是相辅相成,合作才能取得更好的效果。

精度 训练 图像 模型 方法

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。