反向传播（Backpropagation ）

Backpropagation 原理推导（直观推导）

梯度下降法

梯度下降法（Gradient Descent）是机器学习中一种非常重要的优化算法，已知机器学习模型中有参数 $\theta=\{w_1,w_2,...,b_1,b_2,...\}$ ，经过初始化参数后，我们可以得到预测结果 ,通过与已知结果 $\hat{y}$ 对比，定义损失函数（loss function） $L(\theta)$ ，通过梯度下降不断迭代模型中的参数，逐渐使损失函数的值变小，即计算：

$\nabla L(\theta)= \begin{bmatrix} \partial L(\theta)/\partial w_1 \\ \partial L(\theta)/\partial w_2\\ .\\ .\\ \partial L(\theta)/\partial b_1\\ \partial L(\theta)/\partial b_2\\ .\\ .\\ \end{bmatrix}$

$\theta ^{n+1}=\theta ^n-\eta \nabla L(\theta^n), \ \ n=0,1,2...N$

反向传播（Backpropagation）

BP算法主要用在神经网络（深度学习）中，大多数情况下，神经网络求损失函数对中间层参数的导数是一件十分困难的事情，但BP算法能很好的解决这个问题。

BP算法最重要的两个步骤分别是Forward pass和Backward pass

首先我们知道BP算法的目的是求损失函数对权重/偏置参数的导数，即求：

$\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N \frac{\partial C^n(\theta)}{\partial w}$

即，求 $\frac{\partial C(\theta)}{\partial w},\frac{\partial L(\theta)}{\partial b}$ 即可。 $C(\theta)$ 是代价函数，它是和 $\hat y$ 的距离度量，将所有的训练集的代价函数求和即为损失函数

我们以对一个神经元求 $\frac{\partial C}{\partial w}$ 为例，根据链式求导法则：

$\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial C}{\partial z}$

$z=\sum_i^mx_iw_i+b$

作为此神经元的最终输入，为此神经元的初始输入（也是前一层神经元的输出）的个数，为偏置。

所以我们目标即转化成了求 $\frac{\partial z}{\partial w}$ ， $\frac{\partial C}{\partial z}$ 。实际上Forward pass就是用来计算 $\frac{\partial z}{\partial w}$ 的，而Backward pass是用来求 $\frac{\partial C}{\partial z}$ 的。

Forward pass

Forward pass非常简单,因为根据求导公式：

$\frac{\partial z}{\partial w_i}=x_i$

所以 $\frac{\partial z}{\partial w}$ 的值就是这个权重关联的输入（实际上也是中间层hidden layer的输出，后面我们把这个输出用表示，实际上是一个东西）

我们给一个直观的前向传播图

Backward pass

在神经网络模型定义好后，神经元的激活函数 $\sigma(z)$ （activation function）已经确定,我们定义为一个神经元的输出，那么我们根据链式求导法则：

$\frac{\partial C}{\partial z}=\frac{\partial a}{\partial z}\frac{\partial C}{\partial a}$

由于 $a=\sigma(z)$ ，所以 $\frac{\partial a}{\partial z}=\sigma^\prime(z)=const$

所以目标转化为求 $\frac{\partial C}{\partial a}$

我们知道：

$z=\sum aw$

由链式法则可得：

$\frac{\partial C}{\partial a}=\frac{\partial z^{(1)}}{\partial a}\frac{\partial C}{\partial z^{(1)}}+\frac{\partial z^{(2)}}{\partial a}\frac{\partial C}{\partial z^{(2)}}+...+\frac{\partial z^{(k)}}{\partial a}\frac{\partial C}{\partial z^{(k)}}=\sum_{i=1}^k\frac{\partial z^{(i)}}{\partial a}\frac{\partial C}{\partial z^{(i)}}$

为此神经元输出到后层神经元的个数，即与此神经元输出相关的权重个数

所以

$\frac{\partial z}{\partial a}=w$

为便于理解，我们以下图为例：

根据上图

$\frac{\partial C}{\partial z}=\sigma^\prime(z)(w_3\frac{\partial C}{\partial z^\prime}+w_4\frac{\partial C}{\partial {z^\prime}^\prime})$

实际上我们就是利用上式进行反向迭代（Backward pass）

之所以叫Backward pass是因为我们是从最后一层开始计算的，即从输出层开始计算。在这里我们给一个简单的网络：

该输出层的计算如下：

$\frac{\partial C}{\partial z^\prime}=\frac{\partial y_1}{\partial z^\prime}\frac{\partial C}{\partial y_1},\ \ \ \frac{\partial C}{\partial {z^\prime}^\prime}=\frac{\partial y_2}{\partial {z^\prime}^\prime}\frac{\partial C}{\partial y_2}$

当我们从输出层开始计算时，由于 $\frac{\partial C}{\partial y_i}$ 是可以直接求得的，所以最后一层的 $\frac{\partial C}{\partial z}$ 是可以求得的。

所以Backward pass的原理图如下：

根据上图：

$\frac{\partial C_{(n-2)}}{\partial z_{(n-2)}}=\sigma^\prime(z_{(n-2)})\sum w\frac{\partial C_{(n)}}{\partial z_{(n)}}$

所以Backward pass就是先求出最后一层的 $\frac{\partial C}{\partial z}$ ，再通过上式一步步反向进行求出每一层的偏导 $\frac{\partial C}{\partial z}$ 。

计算结果

由于Forward Pass已经计算出 $\frac{\partial z}{\partial w}=a$ ，Backward pass已经求出 $\frac{\partial C}{\partial z}$ ，我们只要令其对应相乘即可得 $\frac{\partial C}{\partial w}$ 。

Backpropagation 原理推导（详细推导）

上面的推导是非常直观的，但数学推导很不漂亮，虽然便于理解，但详细的数学推导是也是很有必要的。

参数的详细定义

我们首先给出网络中各个参数的清晰定义，我们使用 $w_{jk}^l$ 表示从第 l-1 层的第个神经元到第层的第个神经元的链接上的权重；使用 b_j^l 表示在第层第个神经元的偏置；使用 a_j^l 表示第层第个神经元的激活值。

下面是直观图示：

我们知道第层的第个神经元的激活值 a_j^l 和第 l-1 层的激活值通过激活函数联系起来了，那么就有公式：

$a_j^l=\sigma(\sum_kw_{jk}^la_k^{l-1}+b_j^l)$

为了便于运算和公式的简洁性，我们可以将上述方程写成向量形式：

$a^l=\sigma(w^la^{l-1}+b^l)$

w^l 是每一层的权重矩阵， b^l 为偏置向量， a^l 为激活向量。

我们再定义一个中间量 z^l ， $z^l\equiv w^la^{l-1}+b^l$ ,称为层的带权输入。

在这里我们定义一个参量 $\delta_j^l$ ，叫做第层上第个神经元上的误差：

$\delta_j^l\equiv \frac{\partial C}{\partial z_j^l}$

我们给一个定义，Hadamard 乘积，用 $\odot$ 表示，Hadamard 乘积实际上就是两个相同维度的向量按元素乘起来。

我们给一个例子

$\left[ \begin{matrix} 1 \\ 2 \\ 3 \end{matrix} \right]\odot \left[ \begin{matrix} 2 \\ 3 \\ 4 \end{matrix} \right]= \left[ \begin{matrix} 1*2 \\ 2*3 \\ 3 *4\end{matrix} \right]= \left[ \begin{matrix} 2 \\ 6 \\ 12 \end{matrix} \right]$