梯度下降法原理梯度下降背后的原理(泰勒展开推导)BGD、SGD的工程选择上的tricks(eg. batch_size的设置)SGD相关改进优化算法(Momentum、Adam...)
一、梯度下降法原理
梯度---在数学上的定义表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
2.梯度下降法迭代步骤
梯度下降的一个直观的解释:比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步