梯度下降法(或者其改进算法)是机器学习的基础算法之一。在了解梯度下降算法的过程中,会经常看到一句话:“梯度是函数在某一点变化率最大的方向”。本文从较为严格数学证明的角度说明为什么是这样。理解这个证明过程,可以很好的理解梯度下降算法,及其优化算法或者优化方向。本文主要考虑二元函数场景,即\( z=f(x,y) \)。原因是一元函数场景过于简单,不具有代表性,另外,二元场景向多元场景推广也还比较好理解。偏导数偏导数的定义比较好理解,即固定一个变量(当做常数),对另一个变量求导,记作:$$ \frac{\partial z}{\partial x} \; , \; \frac{\partial z}{\partial y} $$梯度向量由各个偏导数组成的向量,就叫梯度向量,通常记作:\( \nabla \),有:$$ \nabla f = (\frac{\partial z}{\partial x} , \frac{\partial z}{\partial y} ) $$多元/多维场景,则常记作:$$ \nabla f = (\frac{\partial f}{\partial x_1} , \frac{\partial f}{\partial x_2} … , \frac{\partial f}{\partial x_n} ) $$方向导数多元函数没有简单的“
...
继续阅读
(18)