2021李宏毅机器学习之Self-attention进阶版本multi-head Self-...
2031次阅读 3次收藏 发表时间:2022年3月22日
也就是再乘上一个矩阵,然后得到 bi,然后再送到下一层去,那这个就是 Multi-head attention,一个这个 Self-attention 的变形. 以上内容都是参考自:https://github.com/unclestrong/De...
CSDN博客频道
没有更多结果了~
- 意见反馈
- 页面反馈