为啥要使用梯度下降法

求最大值最小值的两种主流方法:

  

将导致设置为0当然是最简单的方法,但是有时求导之后,没法发保证左边只包含w,而右边不包含的情况,此时需要使用梯度下降法。

先随便给一个w的初始值,然后根据导函数,一步步的迭代,直到w收敛。

此时w的对应的f(w)值也越来越趋近最小值! 


版权声明:本文为songhuangong123原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。