Attention机制与Self-Attention机制的区别

Attention机制与Self-Attention机制的区别本文主要讲解 Attention 机制与 Self Attention 机制的区别 默认读者已经了解过 Attention Self Attention Transformer seq2seqmodel 传统的 Attention 机制在一般任务的 Encoder Decodermodel 中 输入 Source 和输出 Target 内容是不一样的 比如对于英 中机器翻译来说 Source 是英文句子 Target 是对应的翻译出的中文句子 Attention 机制发生在 Target 的元素 Query 和

       本文主要讲解Attention机制与Self-Attention机制的区别,默认读者已经了解过Attention、Self-Attention、Transformer、seq2seq model。

       传统的Attention机制在一般任务的Encoder-Decoder model中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素Query和Source中的所有元素之间。简单的讲就是Attention机制中的权重的计算需要Target来参与的,即在Encoder-Decoder model中Attention权值的计算不仅需要Encoder中的隐状态而且还需要Decoder 中的隐状态。

       而Self Attention顾名思义,指的不是Target和Source之间的Attention机制,而是Source内部元素之间或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力计算机制。例如在Transformer中在计算权重参数时将文字向量转成对应的KQV,只需要在Source处进行对应的矩阵操作,用不到Target中的信息。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/214086.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午5:00
下一篇 2026年3月18日 下午5:01


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号