Transformer中self-attention、RNN、CNN的性能对比

论文原文Attention is all you need:
https://arxiv.org/pdf/1706.03762.pdf

输入序列 $(x_1,x_2,...,x_n) (x1,x2,...,xn)$
输出序列 $(z_1,z_2,...,z_n) (z1,z2,...,zn)$
$x_i,z_i \in R^d xi,zi∈Rd$
n：序列长度
d：表征维度
k：卷积大小
r：restricted self-attention的邻居范围

原论文why self attention部分从三个角度进行了分析：
每层的计算复杂度，串行操作的最少步数，连接两个元素之间最远路径

1 层计算复杂度

大多数任务中，

n

n

$n$ 往往小于

d

d

$d$ ，所以在大多数情况下，self-attention的计算复杂度更低，对于句长较大的任务，可以使用restricted self-attention(r-centered)来降低计算复杂度

卷积层的复杂度一般高于RNN，大概是乘以

k

k

$k$

2 串行操作最小步数

RNN是在一个序列上的处理是不可以并行的

3 连接两个元素之间的最远路径（长距离依赖的路径长度）

O

(

1

)

O(1)

$O (1)$ (self-attention)更好地学习到长距离依赖;

值得注意的是，针对连续卷积，需要

O

(

n

/

k

)

O(n/k)

$O (n / k)$ 层卷积，对于空洞卷积需要

O

(

l

o

g

k

(

n

)

)

O(log_k(n))

$O (l o g_{k} (n))$ 层

同理restricted self-attention需要

O

(

n

/

r

)

O(n/r)

$O (n / r)$ 层,降低了计算复杂度的同时，牺牲了长距离依赖的学习

总而言之，对于一般的翻译任务，self-attention的层计算复杂度低，单层内每个操作可并行，并且具有良好的长距离依赖学习能力

本文地址：https://blog.csdn.net/Yolo_C/article/details/109634888

《Transformer中self-attention、RNN、CNN的性能对比.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

AIX下C/C++函数性能统计实现方法--改进版

上一篇实现，是统计了每一次函数调用的层次关系和耗时。如果在函数调用比较多的情况下，更关心的是减少输出，只需要总计的耗时即可。另外如果是后台程序，输出到文件会更好。因此，对程序做了改进。当设置T...
2023-10-27编程代码aix,C.,性能
【转载】在LoadRunner向远程Linux/Unix执行命令行并收集性能数据

前面介绍过在LoadRunner的Java协议实现“使用SSH连接Linux”，当然连接之后的故事由你主导。今天要讲的，是一个非Java版本。是对“在LoadRunner中执行命令行程序之：popen()取代system()”...
2023-08-01编程代码命令行,性能,收集
数仓性能调优：大宽表关联MERGE性能优化

摘要：本文主要为大家讲解在数仓性能调优过程中，关于大宽表关联MERGE性能优化过程。本文分享自华为云社区《GaussDB(DWS)性能调优：大宽表关联MERGE性能优化》，作者：譡里个檔。【业务背景】如下MERGE语句...
2023-07-31编程代码优化,关联,性能
python轻量级性能工具-Locust

Locust基于python的协程机制，打破了线程进程的限制，可以能够在一台测试机上跑高并发性能测试基础　　1.快慢：衡量系统的处理效率：响应时间　　2.多少：衡量系统的处理能力：单位时间内能处理多少个事务（tp...
2023-07-29编程代码python,工具,性能
分布式ID(CosId)之号段链模式性能(1.2亿/s)解析

分布式ID(CosId)之号段链模式性能(1.2亿/s)解析上一篇文章《分布式ID生成器（CosId）设计与实现》我们已经简单讨论过CosId的设计与实现全貌。但是有很多同学有一些疑问：CosId的号段链模式（SegmentChainId）...
2023-07-29编程代码分布式,性能,解析
Centos7.x 安装配置Web性能压力测试工具Siege

一、简介 Siege是一款开源的压力测试工具，设计用于评估WEB应用在压力下的承受能力。可以根据配置对一个WEB站点进行多用户的并发访问，记录每个用户所有请求过程的相应时间，并在一定数量的并发访问下重复进行。 ...
2023-07-29编程代码压力,性能,测试工具
微服务性能分析｜Pyroscope 在 Rainbond 上的实践分享

随着微服务体系在生产环境落地，也会伴随着一些问题出现，比如流量过大造成某个微服务应用程序的性能瓶颈、CPU利用率高、或内存泄漏等问题。要找到问题的根本原因，我们通常都会通过日志、进程再结合代码去判断...
2023-07-29编程代码实践,微服,性能
chrome Dev Tools 性能分析 performance

chrome 的performance用来分析性能优化性能非常好用，下面以一个页面来举例性能分析性能分析最好使用隐私无痕模式，以保证干净的环境下，避免chrome插件对性能分析结果的影响 Performance 性能面板：可看到白...
2023-07-29编程代码dev,分析,性能