邏輯回歸1:(分類與概率)
先來3篇很厲害的博文,認真讀完以後會有一個對邏輯回歸比較清晰的理解,閱讀順序如下,我是用最後一篇作為梳理,因為前兩篇寫的很細緻,信息量比較大,顯的脈絡不是特別清晰,看完前兩篇用最後一篇的2.1進行梳理,然後有興趣可以繼續看這篇的其他內容
機器學習系列(1)_邏輯回歸初步 - CSDN博客
機器學習系列(2)_從初等數學視角解讀邏輯回歸 - CSDN博客
【機器學習演算法系列之二】淺析Logistic Regression
了解邏輯回歸
- 邏輯回歸是數學家為了得到[0,1]之間輸出,而使用線性回歸作為邏輯函數的輸入,所創造出來的東西
- 邏輯函數(logistic function)簡單的邏輯函數表達式為:
,圖形如下圖:

通過曲線圖可以看到邏輯函數是一個簡單的S函數(Sigmoid function),所以有些書里直接管它叫Sigmoid函數,也有的書里管邏輯函數叫對數幾率函數,這個原因會在文末揭曉。
- 線性回歸(Linear regression),一般表達式為:
,為簡便也可以將b寫入w中,將公式簡寫為:
,其中w={
...}, 且
=b,
=1。
- 最後把線性回歸作為邏輯回歸的輸入,從而它們組合在一起就有了邏輯回歸,
,z=
。
使用邏輯回歸的目標
- 擬合決策邊界:找到一個有足夠區分度的決策邊界,假設輸入的特徵向量為x∈R,Y取值為0,1。那麼決策邊界可以表示為
=0,當存在例子:
時可以判斷它屬於1類。其實只要
足夠複雜也可以完美擬合非線性的決策邊界,例如:
,其中
,那麼這函數擬合的就是一個圓形的決策邊界。
2. 建立決策邊界與概率的聯繫:由於輸出結果為[0,1]之間,所以可以建立決策邊界與概率的聯繫,下面詳細講下這點:
先引入概率P,邏輯函數可以通過擬合決策邊界 把事件
分為
和
兩類,其中
類事件的發生概率為
,而在邏輯函數
中
,顯然概率
和z的範圍,
不是概率
,在它們之間建立關係需要一個映射即函數,這種映射可以使得在區間
之間的概率
轉化成區間在(+
,-
)的
上,且因為
事件的概率為
時
事件的概率也是
,說明事件正好在決策邊界線上,而決策邊界正是
,即
時概率
。
總結一下映射關係:
- P
[0,1]
- z
(+
,-
)
- p=0.5時z=0
這不禁令人想到另一個爺爺輩的函數,logit function函數:y=log( )

所以我們可以說 (這裡的P是概率),反過來也就是
(這裡的P還是概率),而邏輯函數的公式正好就是
(這裡的P是邏輯函數輸出值),所以我們可以把兩個P劃等號,即把邏輯回歸的輸出值當做是一個概率。
在概率論中P是事件發生的概率,1-P是事件不發生的概率,
就是發生比(odds) 也叫幾率,
就是對數發生比(log-odds,或logit)也叫對數幾率,這就是為什麼邏輯函數也叫對數幾率函數,同是邏輯回歸也叫對數幾率回歸的原因。
—— 完 ——
推薦閱讀:
※正經機器學習之小巧的流程可視化機器學習工具
※谷歌今日上線基於TensorFlow的機器學習速成課程(免費中文版)
※機器學習入門:邏輯回歸案例
※推薦系統:經典方法
※一文弄懂神經網路中的反向傳播法——BackPropagation
