关于multi-head的一点思考

最新推荐文章于 2023-04-17 18:08:02 发布

leap_ruo

最新推荐文章于 2023-04-17 18:08:02 发布

阅读量2.1k

点赞数 1

分类专栏：算法文章标签：人工智能大数据深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Airstudy/article/details/107145448

版权

Google于2017年提出了Transformer，而提出该模型的论文名为《Attention is all you need》，之前翻译该论文的时候并没有太多注意attention，更多的放在了整体的模型结构上。最近面试了一个候选人，他介绍项目用到的AOA时，提到了从“横向”和“纵向”两个维度做softmax，突然让我对Transformer中的multi-head attention有了新的求知欲（虽然这两个事情联系不大，但的确对之前不在意的细节产生了好奇）。
从文章名可以看出attention在Transformer中的重要性，那么笔者就从以下三点再来整理一下multi-head attention。
在这里插入图片描述

为什么要用多个“头”呢？

这个操作和CNN使用多个卷积核的目的一样，从多个维度（或角度）来进行语义理解。只不过，在Transformer中，通过采用h个不同的权重，实现了h个线性变换。

W的维度和embedding维度关系

论文中 $d_k*h=d_{embedding}$

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
关于multi-head的一点思考

Google于2017年提出了Transformer，而提出该模型的论文名为《Attention is all you need》，之前翻译该论文的时候并没有太多注意attention，更多的放在了整体的模型结构上。最近面试了一个候选人，他介绍项目用到的AOA时，提到了从“横向”和“纵向”两个维度做softmax，突然让我对Transformer中的multi-head attention有了新的求知欲（虽然这两个事情联系不大，但的确对之前不在意的细节产生了好奇）。从文章名可以看出attention在Tr
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。