Transformer 编码器由多层相同的子层组成,每个子层包含两个部分:多头自注意力(Multi-Head Attention)和前馈神经网络(Feed-Forward Neural Network)。 多头自注意力:首先将输...