《数据挖掘（完整版）》笔记——人工神经网络

1. 感知机

感知器模型的输出可以用如下数学方式表示：

$\hat y = sign(w_dx_d+w_{d-1}x_{d-1}+\cdots+w_2x_2+w_1x_1-t)=sign(w_dx_d+w_{d-1}x_{d-1}+\cdots+w_2x_2+w_1x_1+w_0x_0)=sign(\mathbf w \cdot \mathbf x)$

其中， $w_0=-t, x_0=1$
注：该公式所描述的感知器模型关于参数 $\mathbf w$ 和属性 $\mathbf x$ 是线性的

学习感知机模型
在这里插入图片描述
算法主要计算的是第7步中的权值更新公式：

$w_j^{(k+1} = w_j^{k}+\lambda(y_i-\hat{y_i^{(k)}})x_{ij}$

$w^{(k)}$ 是第 k 次循环后第 i 个输入链上的权值，参数 $\lambda$ 称为学习率， $x_{ij}$ 是训练样例 $\mathbf{x_i}$ 的第 j 个属性

如果 $\lambda$ 接近0，那么新权值主要受旧权值的影响；相反，如果 $\lambda$ 接近1，则新权值对当前循环中的调整量更加敏感。在某些情况下，可以使用一个自适应的 $\lambda$ 值： $\lambda$ 在前几次循环时相对较大，而在接下来的循环中逐渐减小

在前馈神经网络中，每一层的的结点仅和下一层的结点相连。感知器就是一个单层的前馈神经网络，因为它只有一个节点层——输出层——进行复杂的数学运算。在递归神经网络中，允许同一层借点相连或一层的结点连到前面各层中的结点

ANN学习算法的目的是确定一组权值 $\mathbf w$ ，最小化误差的平方和：

$E(\mathbf w) = \frac{1}{2}\sum_{i=1}^{N}(y_i - \hat y_i)^2$

梯度下降使用的权值更新公式可以写成：

$w_j \leftarrow w_j - \lambda\frac{\partial E(\mathbf w)}{\partial w_j}$

$\lambda$ 是学习率，式中第二项说的是权值应该沿着使总体误差项减小的方向增加。然而，由于误差函数是非线性的，因此，梯度下降方法可能会陷入局部最小值

反向传播的每一次迭代包括两个阶段：前向阶段和后向阶段