【DeepLearning】由involution中的Group引发的self-attention以及Multi-head复习

最新推荐文章于 2024-06-07 00:06:53 发布

有着梦想的咸鱼

最新推荐文章于 2024-06-07 00:06:53 发布

阅读量435

点赞数

分类专栏： DeepLearning 文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60048127/article/details/127579189

版权

DeepLearning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

引起：

involution：

G-Group这是个啥？

我已经晕了，听师兄说这个H就是Group。。。不说了，先复习self-attention

self-attention：

Attention最核心的公式如下：

很难理解是吧，看下面的公式：

先抛开Q，K，V不谈，最初的公式是张这样的。

向量的内积代表啥，XXT又代表什么？

向量的内积代表的是两个向量的夹角，表征一个向量在另外一个向量上的投影。

XXT下面有一个实例：自己看吧

新向量的意义是什么？

是行向量早在自己和其他两个向量上的投影，那投影值的大小有什么意义呢？

投影值大，说明两个向量的相关度高。

更近一步，这个向量是词向量，词向量之间的相关度高代表什么？代表关注A词的时候，应该给B词更多的关注。

那softmax代表什么？

softmax有什么意义？

归一化

结合实例来看，softmax后数字和为1了。

那最后的X是什么意思？

“早”向量的softmax向量与X的内积得到了一个新的“早”向量，这个新的行向量就是原来的“早”向量经过注意力机制加权求和后的表示

Q V K 矩阵：

像QKV这样的，向量查询，信息查询，查询值，都是通过向量X经过线性变化得到的，本质都是X的线性变换。

为什么不直接使用X而要对其进行线性变换？

为了提高模型的拟合能力，矩阵W是可以训练的，起到一个缓冲作用。

不打字了，直接照搬了：

以上来自某乎大佬的博客：超详细图解Self-Attention - 知乎 (zhihu.com)

Multi-Head Attention：

老规矩，上公式：

Muti-Head怎么来的？

对于同一个文本，一个Attention获得一个表示空间，如果多个Attention，则可以获得多个不同的表示空间。

将h个head产生的Attention矩阵连接在一起后进行一次线性变换，使得输出的multi-head矩阵和输入矩阵的shape一样。下面是结构图：

实例：
1:linear

对 Thinking Machines进行multi-head Attention计算。下图中矩阵X的第一行表示Thinking的词向量，第二行表示Machines的词向量， X dot W0Q/K/V 得到Q/K/V

2:Scaled Dot-Product Attention

每一个head都要进行attention计算，由于有8头attention，会得到8个矩阵（2*3）。softmax对矩阵的每一行进行作用。

3：concat + linear

由于Multi-Head Attention后面可能紧跟前馈神经网络（或者RNN、CNN等），而这些网络接受的是单个矩阵向量，而不是8个矩阵。所以把8个矩阵连接在一起（维度2*（8*3）=2*24）然后再与一个矩阵（24*4）相乘，最后压缩成一个矩阵（维度2*4）。

4：最后一整个框图来表示计算过程：

Multi-Head来自某乎大佬：

Multi-Head Attention - 知乎 (zhihu.com)

有着梦想的咸鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【DeepLearning】由involution中的Group引发的self-attention以及Multi-head复习

Deep-Leaning：involution，self-attention，Multi-Head
复制链接

扫一扫

专栏目录

有着梦想的咸鱼 CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

55万+: 周排名

217万+: 总排名

6万+: 访问

: 等级

354: 积分

10: 粉丝

86: 获赞

15: 评论

399: 收藏

私信

关注

热门文章

分类专栏

DeepLearning 2篇
pytorch 1篇
git 1篇
Linux 4篇
Pandas 3篇
计算机组成原理 9篇
Numpy 2篇
考研 1篇

最新评论

【补码原码的表示范围】关于补码为1.00000的数真值为-1.00000的分析
做而论道_CS: 由 “符号位原码取反加一” 开始学补码，就是误入歧途了。老外的算术水平太洼，众所周知。谁要是跟老外学算术，立刻马上，直接就掉沟里去了。
【计算机组成原理】地址线和数据线
湷: 大佬你好，我也是同样的疑问。是因为这里问的是存储系统，所以才要看按字节编制吗？如果是算单个芯片的，比如16K*4的芯片，这个芯片的地址线是不是应该是14？
【双符号位判决法】定点数上溢，下溢的判别
做而论道_CS: 计算机的字长，是固定的。　八位机的每次计算，就是用八位二进制数来计算。　运算结果，当然也是八位数。所谓溢出，是指：　运算结果超出了预定的表达范围。例如，8 位 2 进制数，其表达范围是：　－128 ~ +127。如果你进行：126 + 3，有没有溢出呢？由小学知识即可知道，结果是：129 ！这就超出了 8 位数的表示范围，必然就会溢出。所以，判断溢出最基本方法就是：　把两个二进制数，都转成十进制，再相加！然后，就看结果吧：　超出了预定的表达范围，就是溢出了。有了这方法，其它方法，都是多余的。计算机专家撑的没事干，就胡编乱写一套一套又一套！不用理他们，世界就和平了。
做一个行动主义者
四十四924: 答主最后考上了吗
【计算机组成原理】cache和主存地址和cache的总位数
YraYnofear: 唔有的教材说的是组相联cache地址是：区内组号_组内块号_块内地址

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。