為什麼局部下降最快的方向就是梯度的負方向？

05-11

個人網站：紅色石頭的機器學習之路
CSDN博客：紅色石頭的專欄
知乎：紅色石頭
微博：RedstoneWill的微博
GitHub：RedstoneWill的GitHub

微信公眾號：AI有道（ID：redstonewill）

1. 什麼是梯度？

對於梯度下降演算法（Gradient Descent Algorithm），我們都已經很熟悉了。無論是在線性回歸（Linear Regression）、邏輯回歸（Logistic Regression）還是神經網路（Neural Network）等等，都會用到梯度下降演算法。我們先來看一下梯度下降演算法的直觀解釋：

假設我們位於黃山的某個山腰處，山勢連綿不絕，不知道怎麼下山。於是決定走一步算一步，也就是每次沿著當前位置最陡峭最易下山的方向前進一小步，然後繼續沿下一個位置最陡方向前進一小步。這樣一步一步走下去，一直走到覺得我們已經到了山腳。這裡的下山最陡的方向就是梯度的負方向。

首先理解什麼是梯度？通俗來說，梯度就是表示某一函數在該點處的方嚮導數沿著該方向取得最大值，即函數在當前位置的導數。

$abla=frac{df( heta)}{d heta}$

上式中， $heta$ 是自變數， $f( heta)$ 是關於 $heta$ 的函數， $heta$ 表示梯度。

2. 梯度下降演算法

如果函數 $f( heta)$ 是凸函數，那麼就可以使用梯度下降演算法進行優化。梯度下降演算法的公式我們已經很熟悉了：

$heta= heta_0-etacdot abla f( heta_0)$

其中， $heta_0$ 是自變數參數，即下山位置坐標， $eta$ 是學習因子，即下山每次前進的一小步（步進長度）， $heta$ 是更新後的 $heta_0$ ，即下山移動一小步之後的位置。

梯度下降演算法的公式非常簡單！但是」沿著梯度的反方向（坡度最陡）「是我們日常經驗得到的，其本質的原因到底是什麼呢？為什麼局部下降最快的方向就是梯度的負方向呢？也許很多朋友還不太清楚。沒關係，接下來我將以通俗的語言來詳細解釋梯度下降演算法公式的數學推導過程。

3. 一階泰勒展開式

這裡需要一點數學基礎，對泰勒展開式有些了解。簡單地來說，泰勒展開式利用的就是函數的局部線性近似這個概念。我們以一階泰勒展開式為例：

$f( heta)approx f( heta_0)+( heta- heta_0)cdot abla f( heta_0)$

不懂上面的公式？沒有關係。我用下面這張圖來解釋。

凸函數 $f( heta)$ 的某一小段 $[ heta_0, heta]$ 由上圖黑色曲線表示，可以利用線性近似的思想求出 $f( heta)$ 的值，如上圖紅色直線。該直線的斜率等於 $f( heta)$ 在 $heta_0$ 處的導數。則根據直線方程，很容易得到 $f( heta)$ 的近似表達式為：