沐小晨曦 | Omooo

前馈神经网络

前言

从这一节就开始接触最简单最朴素的神经网络了，叫做前馈神经网络。在这种神经网络中，各神经元从输入层开始，接收前一级输入，并输入到下一级，直至输出层。整个网络中无反馈，可用一个有向无环图表示。

通常我们说的前馈神经网络有两种：反向传播网络（BP网络）和径向基函数神经网络（RBF网络）。

这一节虽然不难，但是非常重要，因为几乎所有在深度学习中涉及的最为关键性的问题都在这一节涵盖了。我们以最简单的BP网络为例，看看最简单的神经网络是怎么设计和工作的。

本节目录：

线性回归的训练
神经网络的训练
小结

线性回归的训练

也就是之前讲过的线性函数：y=wx+b ，在拟合的过程中，我们添加一个参数 e 代表 error，表示误差的含义，于是就有了：y=wx+b+e

当取定每一个 w 和 b 的时候，只要带入一个 x 和对应的 y 就一定会产生一个 e 来表示这个误差。所以总的误差就可以表示为：

但是显然也是有一个问题的：这种误差能内部正负相互抵消的吗？显然是不能的。所以我们取其平方和，即：

在完全展开之后，在合并公因式以及常数项之后，得到类似以下形式：

A - F 都是常数系数，现在我们得到了一个全局的误差函数，其中未知数是 w 和 b。现在我们要做的就是找到一对 w 和 b 使得Loss 误差值越小越好。

这你估计就坐不住了，求导求最小值嘛，高中我就会。事实上的确是这样，这里介绍一种很开阔思维的算法：梯度下降法。

还是以最简单的说起，假如求 y=f(x)=x^2 + 1 的最小值：

聪明的你一眼能看出来极值在哪，但是计算机就比较笨了，它只能先选取一个点，比如是（1,2），选中之后往左挪发现值比它小，往右挪发现值比它大，所以它肯定会往左挪来让自己变得小，也就越接近极值。但是我们希望它能够在离极值点远的地方挪动的幅度大一点，在极值点近的地方挪动的幅度小一点，这该怎么办呢？这就是梯度下降法要解决的问题。