res2net:A New Multi-scale Backbone Architecture论文阅读

2022-07-26,,,

摘要

在多尺度上表示特征对于许多视觉任务来说是十分重要的。基础CNN上的最新进展不断展示出更强的多尺度表示能力,在很多应用中实现持续的性能提升。然而大多数现有的方法以分层方式表示多尺度特征。在本文中,我们为CNN提出了一种新的构建块,它通过在一个单个残差块内构造分层的类残差连接来实现多尺度特征的获取。

res2net更精细的表示多尺度特征,并增加每个网络层的感受野。提出的res2net还可以融合到最先进的CNN骨架中,并获得一致的性能提升。

介绍

在自然场景中,视觉模式出现在多尺度上。首先,在同一幅图像中出现的物体大小可能不同;其次,物体的基本上下文信息可能比物体本身占据更大的区域;第三,感知来自不同尺度的信息对于细粒度分类和语义分割是至关重要的。因此,对于视觉认知任务设计良好的多尺度特征提取模块十分重要。

在视觉任务中获取多尺度特征需要通过一系列卷积运算来学习从粗到细的特征,卷积神经网络固有的多尺度特征提取能力使其能够有效的解决大量的视觉任务。如何设计一个更高效的网络架构是进一步提高CNN的性能的关键。

早期的AlexNet和VGGNet通过堆叠卷积运算来获取多尺度特征。之后InceptionNets通过使用不同大小卷积核的卷积层获取多尺度特征,Resnet通过残差块,DenseNet通过快捷连接,DLA通过分层聚合来获取多尺度特征。骨干CNN结构的发展显示出网络向着更有效和高效的多尺度特征表示方向发展。

这项工作提出了一个简单但是高效的多尺度处理方法。不同于当前的利用不同分辨率图像特征来提高多尺度能力,该方法在更精细的角度上获取多尺度特征。

为了实现这个目标,使用一组更小的卷积核组来替换3x3卷积。这些卷积核组通过分层类残差的方式连接在一起以提高输出特征可以表示的尺度数量。具体来说,首先将输入特征图分成几组,一组卷积核首先从一组输入特征图上提取特征,输出的特征与这组输入特征图共同作为输入特征被送入下一组卷积核。这个过程重复几次,直到所有输入特征图均被处理。最后将所有的输出特征图连接并通过1x1卷积将信息融合在一起,这种方式就会产生很多不同尺度感受野,进而获取多尺度特征。

res2net策略暴露了一个新维度,即scale(res2net块中特征组的数量),作为现有深度、宽度、基数维度之外的一个重要因素,后文指出增加scale比增加其他维度更有效。

由于提出的方法与现有利用分层方式是正交的,因此res2net构建块可以很容易的插入现有CNN架构中。

实验

本文地址:https://blog.csdn.net/strawqqhat/article/details/110312930

《res2net:A New Multi-scale Backbone Architecture论文阅读.doc》

下载本文的Word格式文档,以方便收藏与打印。