感知机模型收敛性推导

感知机模型收敛性推导

证明的前提是训练数据集线性可分。现在我们想证明感知机模型是会收敛的,也就是说错误训练样例的个数存在一个上限。这个定理是Novikoff在1962年时给予证明的,我阅读其论文和李航的统计学习方法之后自己进行了推导。
首先,如果训练数据集线性可分,那么所有训练数据点到分离超平面的距离存在一个最短距离,我们记为γ,为了我们对分离超平面的参数的记法进行修改w^=[wTb]T,x^=[xT1]T,这样分离超平面可以写成w^x^=0,令最终的分离超平面为w^且其范数为1。这里我们使用一个重要的不等式进行证明——柯西不等式,我们这样使用

w^w^||w^||||w^||
这里使用迭代的思想来证明,当算法迭代到第k次时
w^kw^=(w^k1+x^tyt)w^w^k1w^+γkγ
其中第一个等号根据梯度下降法中参数的迭代步骤,第一个不等号根据任何数据点到最终分离超平面距离存在最小值。
||w^k||2==||w^k1+x^tyt||2||w^k1||2+2(w^k1x^tyt)+||x^t||2||w^k1||2+||x^t||2||w^k1||2+R2kR2
其中第一个等号根据梯度下降法中参数的迭代,第二个不等号根据y的2次方为1(y=-1|1),第一个不等号根据误分类样本t满足 w^k1x^tyt<0,第二个不等号是令 R=max||x^t||,这样柯西不等式可以写成
kγw^w^||w^||||w^||kR
其中第三个不等号成立因为最终分离超平面的参数w的范数为1。综上获得这样的不等式
kR2γ2
说明错误分类次数存在一个上限值,算法最终的错误分类次数达到上限时就会收敛。因此 如果数据线性可分,那么感知机模型确实会收敛


版权声明:本文为sinat_26376671原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。