文章目录
其中PPT下载地址为 https://download.csdn.net/download/herosunly/
1. self-attention
1.1 为什么要引入self-attention
1.2 self-attention的基本原理





1.3 self-attention的矩阵表示
矩阵表示是为了体现可使用GPU进行加速。其中这一部分涉及到了矩阵的几种乘法。除了常规的乘法以外,还有列操作和行操作。
列操作是指矩阵的 C C C的第j列是通过矩阵 A A A乘以矩阵 B B B第j列的列向量得到的。这表明矩阵 C C C 的列向量是矩阵 A A A列向量的线性组合,组合的“权”就是矩阵 B B B 第j列的各个分量。

行操作是指矩阵 C C C 的第 i 行是通过矩阵 A A A 的第 i 行乘以矩阵 B B B得到的。这表明矩阵 C C C的行向量是矩阵 B B B行向量的线性组合。




对于每个输出b来说,权重是一个列向量。


1.4 Multi-head self-attention
2. Positional Encoding
在self-attention中并没有位置信息,所以需要添加上位置信息。在词嵌入后添加one-hot向量 p i p^i pi(维度为 p i p^i pi的维度)。
W X = [ W I W p ] [ x i p i ] WX=[W^I \quad W^p] \left[ \begin{array} { l } { x^i } \\ { p^i } \end{array} \right] WX=[WIWp][xipi] W X = W I x i + W p p i = a i + e i WX=W^I x^i+W^p p^i=a^i+e^i WX=WIxi+Wppi=ai+ei

http://jalammar.github.io/illustrated-transformer/

3. seq2seq
4. Transformer

Batch Norm: https://www.youtube.com/watch?v=BZh1ltr5Rkg, Layer Norm:https://arxiv.org/abs/1607.06450, 其中Add层指的是把输出和输入相加。其中Batch Norm是让在Batch Size中的样本同一个维度的均值为0,方差为1。Layer Norm是让同一样本的不同维度的均值为0,方差为1。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/217556.html原文链接:https://javaforall.net
