李宏毅 Transformer 学习笔记

全栈程序员-站长 • 2026年3月18日上午9:18 • 未分类 • 阅读 2

文章目录

1. self-attention
2. Positional Encoding
3. seq2seq
4. Transformer

其中PPT下载地址为 https://download.csdn.net/download/herosunly/

1. self-attention

1.1 为什么要引入self-attention

1.2 self-attention的基本原理

在这里插入图片描述

1.3 self-attention的矩阵表示

矩阵表示是为了体现可使用GPU进行加速。其中这一部分涉及到了矩阵的几种乘法。除了常规的乘法以外，还有列操作和行操作。

列操作是指矩阵的 $C$ 的第j列是通过矩阵 $A$ 乘以矩阵 $B$ 第j列的列向量得到的。这表明矩阵 $C$ 的列向量是矩阵 $A$ 列向量的线性组合，组合的“权”就是矩阵 $B$ 第j列的各个分量。
在这里插入图片描述
行操作是指矩阵 $C$ 的第 i 行是通过矩阵 $A$ 的第 i 行乘以矩阵 $B$ 得到的。这表明矩阵 $C$ 的行向量是矩阵 $B$ 行向量的线性组合。

在这里插入图片描述

对于每个输出b来说，权重是一个列向量。

在这里插入图片描述

1.4 Multi-head self-attention

2. Positional Encoding

在self-attention中并没有位置信息，所以需要添加上位置信息。在词嵌入后添加one-hot向量 $p^i$ (维度为 $p^i$ 的维度)。
$WX=[W^I \quad W^p] \left[ \begin{array} { l } { x^i } \\ { p^i } \end{array} \right]$ $WX=W^I x^i+W^p p^i=a^i+e^i$

http://jalammar.github.io/illustrated-transformer/
在这里插入图片描述

3. seq2seq

4. Transformer

在这里插入图片描述
Batch Norm: https://www.youtube.com/watch?v=BZh1ltr5Rkg, Layer Norm:https://arxiv.org/abs/1607.06450，其中Add层指的是把输出和输入相加。其中Batch Norm是让在Batch Size中的样本同一个维度的均值为0，方差为1。Layer Norm是让同一样本的不同维度的均值为0，方差为1。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/217556.html原文链接：https://javaforall.net

李宏毅 Transformer 学习笔记

文章目录

1. self-attention

1.1 为什么要引入self-attention

1.2 self-attention的基本原理

1.3 self-attention的矩阵表示

1.4 Multi-head self-attention

2. Positional Encoding

3. seq2seq

4. Transformer

关于作者

全栈程序员-站长

发表回复

李宏毅 Transformer 学习笔记

文章目录

1. self-attention

1.1 为什么要引入self-attention

1.2 self-attention的基本原理

1.3 self-attention的矩阵表示

1.4 Multi-head self-attention

2. Positional Encoding

3. seq2seq

4. Transformer

关于作者

全栈程序员-站长

相关推荐

行测题库图形推理_2021年考公务员

编写socket套接字的步骤_windows7任务栏组成部分

SQL游标使用——格式、实例、嵌套

Midjourney_api 项目使用教程

RapeLay（电车之狼R）的结局介绍 (隐藏结局攻略)

安卓usb调试模式还是无法连接_android usb

发表回复