Transformer总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Transformer总结
⼀、提出背景
因为之前的LSTM、GRU等RNN的结构,虽然⼀定程度上解决了长程依赖的问题,但是还是没有根本解决超过⼀定范围的长程依赖问题。并且,RNN的顺序计算使得模型训练速度慢的问题。
提出Tranformer:1、并⾏计算,⼤⼤减少训练时间,摒弃了RNN、CNN的使⽤。 2、仅仅依赖多头⾃注意⼒的encoder-decoder模型,使得长程依赖问题有了进⼀步的解决。
为什么使⽤多头注意⼒:因为不同位置不同⼦空间的信息能够更加全⾯的表达,然后简单拼接即可。
⼆、主要结构
6层encoder+6层decoder的模型,顺便全都使⽤了残差⽹络来解决梯度弥散的问题。
encoder 由multi-head attention 和feed forward network 组成
decider由mast-multi-head 、multi-head、feed forward netword组成
encoder和decoder之间由Q、K、V联系
主要结构图如下;
注意⼒计算公式如下:其中Q、K、V 由每个单词嵌⼊向量得到,
本⾝注意⼒机制公式的类型: softmax(XY T)Z
XY T的意义:就是X在Y上的投影,即表⽰X与Y的相关程度,然后对Z的加权平均,
衡量每个特征维度上所有特征之间的相关性,可并⾏是最⼤的优势。
针对上图做重要解释:
1、encoder-decoder之间的联系,其中Q来⾃之前的decoder层,KV来⾃于最后⼀层encoder,这使得decoder的每个位置都能查询input中所有位置的KV
2、encoder内部通过6层不断迭代,每⼀个位置都能匹配之前encoder层
3、decoder同上,并且注意这⾥的⾃回归模型(t时刻仅依赖于之前时刻的输⼊,⽽与之后的输⼊⽆关),这⾥decoder专门做了相应的处理
全连接应⽤的公式:
位置编码:(这⾥的原理还是不太懂)
三、缺点
1、摒弃了RNN、CNN,丧失了捕捉局部特征的能⼒
2、对于位置信息,position embedding只是权宜之计,是有⼀定的缺陷。
Attention Is All You Need