DDPG训练过程中梯度恒为0

AC都用的简单的全连接,两层,结果梯度值总是0,即使loss已经很大了,梯度仍然是0.

检查发现,网络权值初始化的时候出了问题,我自己定义的初始化,本来是在一个区间【-0.1,0.1】之间均匀分布,然而手抖把minval和maxval都写成了-0.1,就导致网络权值初始化全部为-0.1,然后不知为啥梯度就一直是0.

改了之后梯度正常出现。


版权声明:本文为nm46nm原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。