Transformer详解（附代码）-网络知识

引言

$T r a n s f o r m e r$ 模型是 $G o o g l e$ 团队在 $2017$ 年 $6$ 月由 $A s h i s h V a s w a n i$ 等人在论文《 $A t t e n t i o n I s A l l Y o u N e e d$ 》所提出，当前它已经成为 $N L P$ 领域中的首选模型。 $T r a n s f o r m e r$ 抛弃了 $R N N$ 的顺序结构，采用了 $S e l f$ - $A t t e n t i o n$ 机制，使得模型可以并行化训练，而且能够充分利用训练资料的全局信息，加入 $T r a n s f o r m e r$ 的 $S e q 2 s e q$ 模型在 $N L P$ 的各个任务上都有了显著的提升。本文做了大量的图示目的是能够更加清晰地讲解 $T r a n s f o r m e r$ 的运行原理，以及相关组件的操作细节，文末还有完整可运行的代码示例。

注意力机制

$T r a n s f o r m e r$ 中的核心机制就是 $S e l f$ - $A t t e n t i o n$ 。 $S e l f$ - $A t t e n t i o n$ 机制的本质来自于人类视觉注意力机制。当人视觉在感知东西时候往往会更加关注某个场景中显著性的物体，为了合理利用有限的视觉信息处理资源，人需要选择视觉区域中的特定部分，然后集中关注它。注意力机制主要目的就是对输入进行注意力权重的分配，即决定需要关注输入的哪部分，并对其分配有限的信息处理资源给重要的部分。

Self-Attention

$S e l f$ - $A t t e n t i o n$ 工作原理如上图所示，给定输入 $w o r d e m b e d d i n g$ 向量 $a^1,a^2,a^3 in mathbb{R}^{d_l times 1}$ ，然后对于输入向量 $a^i,iin {1,2,3}$ 通过矩阵 $W^qin mathbb{R}^{d_k times d_l},W^kin mathbb{R}^{d_k times d_l},W^vin mathbb{R}^{d_ltimes d_l}$ 进行线性变换得到 $Q u e r y$ 向量 $q^iinmathbb{R}^{d_k times 1}$ ， $K e y$ 向量 $k^iin mathbb{R}^{d_k times 1}$ ，以及 $V a l u e$ 向量 $v^iin mathbb{R}^{d_l times 1}$ ，即 $left{begin{aligned}q^i&=W^q cdot a^i\k^i&=W^k cdot a^i,quad iin{1,2,3}\v^i&=W^v cdot a^iend{aligned}right.$ 如果令矩阵 $A=(a^1,a^2,a^3)inmathbb{R}^{d_l times 3}$ ， $Q=(q^1,q^2,q^3)inmathbb{R}^{d_k times 3}$ ， $K=(k^1,k^2,k^3)inmathbb{R}^{d_k times 3}$

引言

注意力机制

Self-Attention

相关文章

央媒谈“文盲演员”引发饭圈甩锅大战

野生大熊猫深夜遛达 镜头前呆萌打卡

张萌谈演员到底需不需要有文化

情人节多地迎领证高峰

婚房烂尾10年业主住进毛坯房

多地首套房贷利率降至4%以下 为什么急于提前还贷

野生大熊猫深夜遛达镜头前呆萌打卡

多地首套房贷利率降至4%以下为什么急于提前还贷