統計分析

解讀 logistic regression

什麼是線性迴歸?(What is Multiple Linear Regression?) 談論過迴歸分析主要可用來作預測與作因果分析,那既然迴歸分析這麼好,為什麼還要談 logistic regression (中文有人翻:羅吉斯迴歸) 呢?

最主要的原因:在一般的迴歸分析中,dependent variable (DV) 是連續變項 (continuous variable);如果 DV 不是連續變項,而是二分變項 (dichotomous variable,如:男或女、存活或死亡、通過考試與否) 等情況,這時你就必須使用 logistic regression 了

當然,如果你堅持的話,你也可以跑 OLS regression,一樣會得到結果的。如果你得到的 coefficient 是 0.066 的話,解讀就是:當 IV 增加 1 的時候,DV 發生的機率增加 6.6% 。然而,這樣作是有缺點的,通常沒辦法準確地估算 IV 對 DV 的影響 (通常是低估)。

為了解決這個問題,統計學家用 odds ratio (勝算比) 於 logistic regression 之中。要說勝算比之前,要先了解什解什麼是勝算勝算指的是:一件事情發生的機率與一件事情沒發生機率的比值。以拋硬幣為例,拿到正面與拿到反面的機率都是 0.5,所以odds ratio 就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ,那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ,那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間

odds ratio 則是兩件事情的 odds 作比較。舉個例子來說,如果高學歷的人寫部落格的勝算(odds) 是  2.33,低學歷的人寫部落格的勝算是 0.67,那與低學歷的人比起來,高學歷的人寫作部落格的勝算是他們的 3.48 倍 (2.33/0.67),所以勝算比 (odds ratio)就是3.48

那如何解讀 logistic regression 的結果呢?通常你會看到文章裡呈現兩種結果:一種如果沒特別指名的話,就叫 coefficient,它的 DV 是某件事的 log odds ratio ,是勝算比取了自然對數;一種是 odds ratio 。這兩種值是可以互相轉換的,如果你的 log odds ratio 得到的 coefficient 是 0.405,你可以計算 odds ratio ,在 stata 指令列輸入 dis exp(0.405),會得到1.500。所以在讀文章的時候一定要讀清楚作者呈現的是 log odds ratio 或是 odds ratio

結果怎麼解讀呢?可從 log odds ratio 開始,解讀是:當 IV 增加一單位,log odds  會增加 ##。其實這解讀與 OLS regression 的解讀是一樣。如果你看到的是 odds ratio,解讀是:當 IV 增加一單位,odds 會增加 (##-1)*100%。兩種解讀方式都套上剛剛的數字,那結果會是:

log odds ratio: 當 IV 增加 1,log odds ratio of 某件事會增加 0.405 (請原諒我的英式中文@@)。

odds ratio: 當 IV 增加1,odds of 某件事會增加 (1.5-1)*100% = 50%。所以如果本來是 2,增加 50%的話,會變成 2 * 50% + 2 = 3 。換句話說,你也可以直接解讀為:當 IV 增加1,odds 某件事 (或是某件事的勝算。注意:這裡是勝算,不是勝算比) 會變成原本的值乘以1.5

如果你的勝算比 odds ratio 的 coefficient 是 0.667,那應該怎麼解讀呢?當 IV 增加1,某件事的勝算變成原本的值 (or 勝算) 乘以0.667。所以原本的勝算比如果是 3 的話,當 IV 增加1時,某件事的勝算會變成 2。你也可以說:當 IV 增加 1 時,某件事的勝算會減少 (1-.667)* 100% =33%

延伸閱讀

Logistic Regression介紹—晨晰統計林星帆顧問整理 http://tw.myblog.yahoo.com/da_sanlin/article?mid=1013&sc=1

解讀 logistic regression Read More »

多重比較 Multiple comparisons

在用 ANOVA 時,會得到一個 F-test,這個 test 只能告訴你整個 model 是否顯著 (i.e., 總體平均數不相同或不完全相同),並不能告訴你特定的組與組之間是否有差異。有很多種方法可以比較組間的平均值是否有差異,這些方式就稱作多重比較 (multiple comparisons) (註:這裡只說事後比較,不提事前比較)。

那為什麼有這麼多種方式,不要有一種就好?好問題,因為問題的核心是 Type I errors。不同的方法有不同的假設與處理 Type I errors 的方式。那為什麼問題的核心是 Type I errors呢?因為就整個 model 的 F-test 來說,你只有一個比較,換言之,你只要處理一次 Type I error 即可。但當你作多重比較時,你就要處理很多次 Type I error (三組間的比較就要處理三次,四組就要六次) ,在這情況下,就要調整 error rate 以免不小心犯了 Type I error 了。

如果要作 post hoc comparisons (有人叫 posteriori test) ,有許多選擇:1) Fisher’s Least Significant Difference (又稱為 LSD);2) Tukey’s Test;3) The Ryan Procedure (REGWQ);4) The Scheffé Test;5) Dunnett’s test for comparing all treatments with a control。

會產生這麼多方法,主要是比較的方式不同。有的方法是與均值作比較 (i.e.,…

多重比較 Multiple comparisons Read More »

解讀OLS Regression中log transformed之後的變數

一般而言,OLS regression 的結果都可以寫成像下面的公式:

Y= a + b1*X1 + b2*X2

Y是dependent variable (簡稱DV),a是constant,X1與X2是 independent variables (簡稱IV),b1與b2是與其對應的coefficient。

解讀這樣的方程式一點都不難。X1變數增加1的話,Y會相對應的增加b1;X2變數增加1的話,Y會增加b2。

但是,如果你的變數經過了logarithmic transformation,也就是取了對數之後,事情就變得比較複雜了。首先要記得的是:log transformation之後的解讀,都是跟percent有關

狀況一:將DV取對數,IV維持不變

寫成公式還是一樣的:logY = a + b1*X1 + b2*X2

用logY表示DV已取了對數,b1與b2是新得到的coefficient。解讀是:X1增加1的話,Y隨之增加 100*b1 個%。

狀況二:將IV取對數,DV維持不變

公式:Y = a + b1*logX1 + b2*logX2

解讀是:X1增加1%的話,Y會增加 b1/100

狀況三:將DV與IV都取對數

公式: logY = a + b1*logX1 + b2*logX2

解讀是:X1 增加1%,Y增加b1 %

狀況三就是計量經濟提到的elasticity

參考網頁:https://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm

解讀OLS Regression中log transformed之後的變數 Read More »

Stata: 如何分組畫regression line

在作regression的時候,分組比較是非常常見的,有時候為了看出兩組或多組之間的差異,最簡單的方式就是用圖表呈現,如下圖所示。要怎麼畫這個圖表呢?Stata有很多方式可以作,這裡提供兩種。
1.png
方法一:
regress inc educ male, beta
predict incfnoi if male==0
predict incmnoi if male==1

twoway (connected incmnoi educ if male==1, lcolor(black) ///
lpattern(dot) msymbol(diamond) msize(large)) ///
(connected incfno educ if male ==0, lcolor(black) ///
lpattern(solid) msymbol(circle) msize(large)), ///
ytitle(Income in thousands) xtitle(Education) ///
legend(order(1 "Men" 2 "Women")) scheme(s2manual)
上面這段程式是從A gentle introduction to Stata 抄來的,這本書的相關介紹可見這篇文章:Stata書籍介紹。出來的圖就向上面的圖一樣。

方法二:

net describe postgr3, from(<a href="http://www.ats.ucla.edu/stat/stata/ado/analysis">http://www.ats.ucla.edu/stat/stata/ado/analysis</a>)

Stata: 如何分組畫regression line Read More »

Scroll to Top