为啥要使用梯度下降法

求最大值最小值的两种主流方法：

将导致设置为0当然是最简单的方法，但是有时求导之后，没法发保证左边只包含w，而右边不包含的情况，此时需要使用梯度下降法。

先随便给一个w的初始值，然后根据导函数，一步步的迭代，直到w收敛。

此时w的对应的f(w)值也越来越趋近最小值！

版权声明：本文为songhuangong123原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/songhuangong123/article/details/125386500