第8讲、Multi-Head Attention 的核心机制与实现细节 何双新
🤔 为什么要有 Multi-Head Attention? 单个 Attention 机制虽然可以捕捉句子中不同词之间的关系,但它只能关注一种角度或模式。 Multi-Head 的作用是: 多个头 = 多个视角同时观察序列的不...
博客园
multi-head attention rosyYY
模型共包含三个 attention 成分,分别是 encoder 的 self-attention,decoder 的 self-attention,以及连接 encoder 和 decoder 的 attention。这三个 attention block 都是 multi-head attention 的形式,输入都是...
博客园
没有更多结果了~
- 意见反馈
- 页面反馈