CvT: Introducing Convolutions to Vision Transformers-首次将Transformer应用于分类任务

2023-03-14

CvT: Introducing Convolutions to Vision Transformers

Paper：https://arxiv.org/pdf/2103.15808.pdf

Code：https://github.com/rishikksh20/convolution-vision-transformers/

Motivation：在相似尺寸下，VIT的性能要弱于CNN架构；VIT所需的训练数据量要远远大于CNN模型

CvT将卷积引入Transformer，总架构是一个multi-stage的hierarchical的结构：

首先embedding的方式变成了卷积操作，在每个Multi-head self-attention之前都进行Convolutional Token Embedding。其次在 Self-attention的Projection操作不再使用传统的Linear Projection，而是使用Convolutional Projection。

Linear Projection->convolutional Projection

（c）这一步可以补偿分辨率下降的损失

为什么不用位置编码：卷机操作的zero-padding暗含位置信息

CvT: Introducing Convolutions to Vision Transformers-首次将Transformer应用于 分类任务的相关教程结束。

《CvT: Introducing Convolutions to Vision Transformers-首次将Transformer应用于分类任务.doc》

下载本文的Word格式文档，以方便收藏与打印。

CvT: Introducing Convolutions to Vision Transformers-首次将Transformer应用于分类任务

CvT: Introducing Convolutions to Vision Transformers

CvT: Introducing Convolutions to Vision Transformers-首次将Transformer应用于 分类任务的相关教程结束。

相关推荐

研究NIST FIPS 199 - 安全分类的标准

机器学习（七）：梯度下降解决分类问题——perceptron感知机算法与SVM支持向量机算法进行二维点分类

Python-tomorrow应用于UI自动化的简单使用

AspNetCoreRateLimit应用于MVC项目求助

图像分类（二）GoogLenet Inception_v2：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

[翻译]LSP程序的分类

使用 Transformers 进行图分类

[Pytorch框架] 1.6 训练一个分类器