李宏毅 Transformer 学习笔记

李宏毅 Transformer 学习笔记1 self attention1 1 为什么要引入 self attention 基于 RNN LSTM 的序列模型来说 计算每个 cell 的输出无法进行并行化 而且单向的 RNN 无法很好的利用全局的信息 self attention 的出现恰好解决了以上两大问题 其中 x gt a 这一步貌似在论文中并没有体现 在求每一个 output 的时候 对应的 q 会对所有的 k 求内积 除以 d sqrt

  其中PPT下载地址为 https://download.csdn.net/download/herosunly/

1. self-attention

1.1 为什么要引入self-attention

1.2 self-attention的基本原理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述



1.3 self-attention的矩阵表示

  矩阵表示是为了体现可使用GPU进行加速。其中这一部分涉及到了矩阵的几种乘法。除了常规的乘法以外,还有列操作和行操作。

  列操作是指矩阵的 C C C的第j列是通过矩阵 A A A乘以矩阵 B B B第j列的列向量得到的。这表明矩阵 C C C 的列向量是矩阵 A A A列向量的线性组合,组合的“权”就是矩阵 B B B 第j列的各个分量。
在这里插入图片描述
  行操作是指矩阵 C C C 的第 i 行是通过矩阵 A A A 的第 i 行乘以矩阵 B B B得到的。这表明矩阵 C C C的行向量是矩阵 B B B行向量的线性组合。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
对于每个输出b来说,权重是一个列向量。
在这里插入图片描述
在这里插入图片描述


1.4 Multi-head self-attention

2. Positional Encoding

  在self-attention中并没有位置信息,所以需要添加上位置信息。在词嵌入后添加one-hot向量 p i p^i pi(维度为 p i p^i pi的维度)。
W X = [ W I W p ] [ x i p i ] WX=[W^I \quad W^p] \left[ \begin{array} { l } { x^i } \\ { p^i } \end{array} \right] WX=[WIWp][xipi] W X = W I x i + W p p i = a i + e i WX=W^I x^i+W^p p^i=a^i+e^i WX=WIxi+Wppi=ai+ei
在这里插入图片描述
http://jalammar.github.io/illustrated-transformer/
在这里插入图片描述



3. seq2seq

4. Transformer

在这里插入图片描述
  Batch Norm: https://www.youtube.com/watch?v=BZh1ltr5Rkg, Layer Norm:https://arxiv.org/abs/1607.06450, 其中Add层指的是把输出和输入相加。其中Batch Norm是让在Batch Size中的样本同一个维度的均值为0,方差为1。Layer Norm是让同一样本的不同维度的均值为0,方差为1。


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/217556.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 上午9:18
下一篇 2026年3月18日 上午9:18


相关推荐

  • 行测题库图形推理_2021年考公务员

    行测题库图形推理_2021年考公务员事业单位考试中,判断推理是占据一定的地位的,其中图形推理是大家经常见到的。然而,有的考生会觉得这类题目有些难,像“相亲”一样,都是看眼缘。实则不然,图形推理有它自己的规律,大家需要根据图形特征去识别该题对应的规律。比如图形相似我们可以从位置变化或者是组合叠加角度上去考虑。如果相似度很高我们更建议大家考虑位置变化,那今天中公教育老师带大家来看一下何为位置变化。1.从所给的四个选项中,选择最合适的一个…

    2025年10月17日
    9
  • 编写socket套接字的步骤_windows7任务栏组成部分

    编写socket套接字的步骤_windows7任务栏组成部分详细内容请见书Windows程序设计珍藏版1081页或请见文章:https://www.jianshu.com/p/066d99da7cbd

    2022年8月18日
    8
  • SQL游标使用——格式、实例、嵌套

    SQL游标使用——格式、实例、嵌套在sql语句中,如果要实现诸如for循环一样的功能就会用到游标,但游标一定要慎用,因为它会很大的影响数据库性能。一、游标的一般格式:DECLARE游标名称CURSORFORSELECT字段1,字段2,字段3,…FROM表名WHERE…OPEN游标名称FETCHNEXTFROM游标名称INTO变量名1,变量名2,变量名3,…WHILE@@FETCH_S

    2022年7月12日
    21
  • Midjourney_api 项目使用教程

    Midjourney_api 项目使用教程

    2026年3月15日
    3
  • RapeLay(电车之狼R)的结局介绍 (隐藏结局攻略)

    RapeLay(电车之狼R)的结局介绍 (隐藏结局攻略)

    2021年11月16日
    54
  • 安卓usb调试模式还是无法连接_android usb

    安卓usb调试模式还是无法连接_android usbAndroid系统的手机以及平板电脑占有巨大的市场份额,当使用USB数据线完成电脑端与安卓手机端数据传输时,需要将安卓手机开启USB调试模式。什么是USB调试?USB调试是一种模式,允许Android连接计算机以进行数据同步或刷新任何文件等。本教程详细介绍如何为各种品牌的Android设备和不同版本的Android操作系统启用USB调试。一如何在不同品牌的Android手机上启用USB调试由于A…

    2025年11月6日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号