歡迎來到魔據教育大數據學院,專注大數據工程師培養!
當前位置:首頁 > 學習資料 > 講師博文 > 邏輯回歸

邏輯回歸

時間:2017-08-17 18:23:22作者:[!--zuozhe--]

 

1.前言
邏輯回歸,區別于線性回歸,最主要的特點就一個:它的因變量是0-1型數據。啥是0-1型數據?就是這個數據有,且僅有兩個可能的取值。數學上為了方便,把其中一個記作是0,另外一個記作是1,所以邏輯回歸通常也被稱為0-1回歸。邏輯回歸的因變量是離散變量,自變量可以是混合變量。
比如預測人的性別,因變量可以定義因變量為0=男性,1=女性,自變量可以包含身高、體重、興趣愛好等。當然,0=女性,1=男性也沒關系,開心就好。
再比如雙十一來了,很多人都喜歡買買買,可是很多東西買完才發現并沒什么用。所以買還是不買,這是一個問題,更準確的說,這可以是一個邏輯回歸問題。我們可以定義因變量0=不買,1=買,自變量可以包含折扣、優惠信息、降價幅度、用途大小等等,這樣買買買是不是就理性很多了?
2.邏輯回歸
既然邏輯回歸的自變量和線性回歸的自變量沒什么區別,說明線性回歸模型還是有可取之處的,唯一需要考慮的就是把線性回歸模型的因變量Y轉換為可以描述0-1變量的數據。
可是將連續變量轉為離散變量有點難,可是退一步想,雖然我們不能直接轉換0-1離散變量,但是我們可以描述因變量Y為1的概率,對不對?這個變量就連續了嘛,轉換起來也容易很多,而且線性回歸的那些東西還可以拿過來用。這個方案簡直完美。
“可能性”同“0-1數據”有啥區別?如前所述,“0-1數據”是沒有中間狀態的!1就是購買,0就是不購買,0.5等于啥啊?沒這么一說法!但是,“可能性”就不一樣了。有人購買的可能性就高,有人就低,高和低之間就有“不高不低”。“不高不低”和“高”之間有“比較高”,“不高不低”和“低”之間有“比較低”。
這說明什么?這說明“可能性”這個概念應該是連續的。而且如果是連續的,它就有可能被普通線性模型來回歸。這,就是“0-1回歸”的核心思想。要把一個“0-1型”的因變量數據變成一個連續型的“可能性”的問題,依賴于人們對“可能性”度量手段的不同,可能有不同的“0-1回歸”的模型,而邏輯回歸就是其中最常見的一種。所以現在我們要做的就是把負無窮到正無窮上的連續變量Y,轉換為在0到1上連續的因變量Y。
3.Sigmoid函數
前文我們將邏輯回歸函數總結為
15-1.png 
看起來公式很簡潔,但是有個問題,等式左邊是Y=1的概率,這是一個介于0~1的數據,而等式右邊取值可以為負無窮到正無窮,顯然等式不能直接畫等號,這時我們就要把等式左邊進行變換,使之在負無窮到正無窮上連續:
15-2.png 
結果很接近了,現在我們等式左邊在0到正無窮上連續了,再進一步轉換一下,使得等式左側在負無窮到正無窮上連續就可以了,很簡單,再加個log就OK了,現在公式如下:
15-3.png 
從數學上講,似乎木有任何重大缺陷。這是啥子模型?這就是數據江湖中大名鼎鼎的:邏輯回歸啊!為啥叫邏輯回歸?因為log(P/(1-P))是一個關于概率p的奇葩的變換,這個變換被人們稱作logit-變換。因此,這個模型被稱作:logistic regression,也就是大名鼎鼎的“邏輯回歸”。
所以您看,雖然公式看起來很復雜,但是數學變換就是這么簡單粗暴直接而且不難理解。

更多大數據相關資訊敬請關注魔據教育,為您分享最及時的大數據資訊。
學習大數據敬請關注魔據教育微信二維碼。
魔據教育微信二維碼

【版權與免責聲明】如發現內容存在版權問題,煩請提供相關信息發郵件至[email protected],我們將及時溝通與處理。本站內容除非來源注明魔據教育,否則均為網友轉載,涉及言論、版權與本站無關。

全國咨詢熱線:18501996998,值班手機:18501996998(7*24小時)

在線咨詢:張老師QQ 320169340

企業合作服務專線:010-82340234-821, 院校合作洽談專線:010-82340234

Copyright 2001-2019 魔據教育 - 北京華育興業科技有限公司 版權所有,京ICP備17018991號-2

免費在線咨詢立即咨詢

免費索取技術資料立即索取

大數據技術交流QQ:226594285

電話咨詢010-82340234

六合图库118万众图库