Attention机制与Self-Attention机制的区别

全栈程序员-站长 • 2026年3月18日下午5:01 • 未分类 • 阅读 2

Attention机制与Self-Attention机制的区别本文主要讲解 Attention 机制与 Self Attention 机制的区别默认读者已经了解过 Attention Self Attention Transformer seq2seqmodel 传统的 Attention 机制在一般任务的 Encoder Decodermodel 中输入 Source 和输出 Target 内容是不一样的比如对于英中机器翻译来说 Source 是英文句子 Target 是对应的翻译出的中文句子 Attention 机制发生在 Target 的元素 Query 和

本文主要讲解Attention机制与Self-Attention机制的区别，默认读者已经了解过Attention、Self-Attention、Transformer、seq2seq model。

传统的Attention机制在一般任务的Encoder-Decoder model中，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention机制发生在Target的元素Query和Source中的所有元素之间。简单的讲就是Attention机制中的权重的计算需要Target来参与的，即在Encoder-Decoder model中Attention权值的计算不仅需要Encoder中的隐状态而且还需要Decoder 中的隐状态。

而Self Attention顾名思义，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力计算机制。例如在Transformer中在计算权重参数时将文字向量转成对应的KQV，只需要在Source处进行对应的矩阵操作，用不到Target中的信息。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/214086.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

MySQL高级SQL语句

上一篇 2026年3月18日下午5:00

3hutool实战:DateUtil-获取日期的各种内容

下一篇 2026年3月18日下午5:01

mysql 设置外键约束（foreign key）

mysql 设置外键约束（foreign key）建立外键约束可以采用列级约束语法和表级约束语法，如果仅仅对单独的一个数据列建立外键约束，则使用列级约束语法即可；如果需要对多个列组合创建外键约束，或者需要为外键约束指定名字则必须使用表级约束语法。使用列级约束语法建立外键约束直接使用references关键字，references指定该列参照的哪个主表，以及参照主表的哪一列。如下SQL语句所示：createtablet

全栈程序员-站长
2022年6月22日
32
主题：Windows系统服务器磁盘挂载

主题：Windows系统服务器磁盘挂载

全栈程序员-站长
2021年9月22日
162
MySQL修改表名注释「建议收藏」

MySQL修改表名注释「建议收藏」MySQL修改表名注释altertabletest1comment’修改后的表的注释’;

全栈程序员-站长
2022年6月1日
45
卡方线性趋势检验_spss 卡方的线性趋势检验如何做?[通俗易懂]

卡方线性趋势检验_spss 卡方的线性趋势检验如何做?[通俗易懂]Analyze—DescriptiveStatistics-Crosstabs过程，分别放入两个变量，然后在Statistics过程中勾上Chi-squrae，完成后会出现卡方独立性检验结果，其中有Linear-by-LinearAssociation一项，应该就是你所谓的卡放线性趋势检验。不过你的数据格式：阶段恶性正常111426281473182175是这样的话是没法直接在…

全栈程序员-站长
2022年5月17日
174
Python学习常遇到哪些报错？在这里汇总了

Python学习常遇到哪些报错？在这里汇总了初学 python 时常会遇到各种报错记得在校时有个师弟私聊发他的代码问为啥会报错可能刚进入大学还不习惯在网上找资料解决吧看完后发现居然是括号没有成对出现哪个是报错信息都不知道呀所以在这里总结一下常见的报错类型及这些报错的解决方法

全栈程序员-站长
2026年3月27日
2
r语言熵权法求权重（真实案例完整流程）[通俗易懂]

r语言熵权法求权重（真实案例完整流程）[通俗易懂]可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响（权重）越大。

全栈程序员-站长
2022年10月5日
4

发表回复

关注全栈程序员社区公众号