Transformer总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Transformer总结

⼀、提出背景

因为之前的LSTM、GRU等RNN的结构,虽然⼀定程度上解决了长程依赖的问题,但是还是没有根本解决超过⼀定范围的长程依赖问题。并且,RNN的顺序计算使得模型训练速度慢的问题。

提出Tranformer:1、并⾏计算,⼤⼤减少训练时间,摒弃了RNN、CNN的使⽤。 2、仅仅依赖多头⾃注意⼒的encoder-decoder模型,使得长程依赖问题有了进⼀步的解决。

为什么使⽤多头注意⼒:因为不同位置不同⼦空间的信息能够更加全⾯的表达,然后简单拼接即可。

⼆、主要结构

6层encoder+6层decoder的模型,顺便全都使⽤了残差⽹络来解决梯度弥散的问题。

encoder 由multi-head attention 和feed forward network 组成

decider由mast-multi-head 、multi-head、feed forward netword组成

encoder和decoder之间由Q、K、V联系

主要结构图如下;

注意⼒计算公式如下:其中Q、K、V 由每个单词嵌⼊向量得到,

本⾝注意⼒机制公式的类型: softmax(XY T)Z

XY T的意义:就是X在Y上的投影,即表⽰X与Y的相关程度,然后对Z的加权平均,

衡量每个特征维度上所有特征之间的相关性,可并⾏是最⼤的优势。

针对上图做重要解释:

1、encoder-decoder之间的联系,其中Q来⾃之前的decoder层,KV来⾃于最后⼀层encoder,这使得decoder的每个位置都能查询input中所有位置的KV

2、encoder内部通过6层不断迭代,每⼀个位置都能匹配之前encoder层

3、decoder同上,并且注意这⾥的⾃回归模型(t时刻仅依赖于之前时刻的输⼊,⽽与之后的输⼊⽆关),这⾥decoder专门做了相应的处理

全连接应⽤的公式:

位置编码:(这⾥的原理还是不太懂)

三、缺点

1、摒弃了RNN、CNN,丧失了捕捉局部特征的能⼒

2、对于位置信息,position embedding只是权宜之计,是有⼀定的缺陷。

Attention Is All You Need

相关文档
最新文档