統計分析

多重比較 Multiple comparisons

在用 ANOVA 時,會得到一個 F-test,這個 test 只能告訴你整個 model 是否顯著 (i.e., 總體平均數不相同或不完全相同),並不能告訴你特定的組與組之間是否有差異。有很多種方法可以比較組間的平均值是否有差異,這些方式就稱作多重比較 (multiple comparisons) (註:這裡只說事後比較,不提事前比較)。

那為什麼有這麼多種方式,不要有一種就好?好問題,因為問題的核心是 Type I errors。不同的方法有不同的假設與處理 Type I errors 的方式。那為什麼問題的核心是 Type I errors呢?因為就整個 model 的 F-test 來說,你只有一個比較,換言之,你只要處理一次 Type I error 即可。但當你作多重比較時,你就要處理很多次 Type I error (三組間的比較就要處理三次,四組就要六次) ,在這情況下,就要調整 error rate 以免不小心犯了 Type I error 了。

如果要作 post hoc comparisons (有人叫 posteriori test) ,有許多選擇:1) Fisher’s Least Significant Difference (又稱為 LSD);2) Tukey’s Test;3) The Ryan Procedure (REGWQ);4) The Scheffé Test;5) Dunnett’s test for comparing all treatments with a control。

會產生這麼多方法,主要是比較的方式不同。有的方法是與均值作比較 (i.e.,…

多重比較 Multiple comparisons Read More »

解讀OLS Regression中log transformed之後的變數

一般而言,OLS regression 的結果都可以寫成像下面的公式:

Y= a + b1*X1 + b2*X2

Y是dependent variable (簡稱DV),a是constant,X1與X2是 independent variables (簡稱IV),b1與b2是與其對應的coefficient。

解讀這樣的方程式一點都不難。X1變數增加1的話,Y會相對應的增加b1;X2變數增加1的話,Y會增加b2。

但是,如果你的變數經過了logarithmic transformation,也就是取了對數之後,事情就變得比較複雜了。首先要記得的是:log transformation之後的解讀,都是跟percent有關

狀況一:將DV取對數,IV維持不變

寫成公式還是一樣的:logY = a + b1*X1 + b2*X2

用logY表示DV已取了對數,b1與b2是新得到的coefficient。解讀是:X1增加1的話,Y隨之增加 100*b1 個%。

狀況二:將IV取對數,DV維持不變

公式:Y = a + b1*logX1 + b2*logX2

解讀是:X1增加1%的話,Y會增加 b1/100

狀況三:將DV與IV都取對數

公式: logY = a + b1*logX1 + b2*logX2

解讀是:X1 增加1%,Y增加b1 %

狀況三就是計量經濟提到的elasticity

參考網頁:https://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm

解讀OLS Regression中log transformed之後的變數 Read More »

Stata: 如何分組畫regression line

在作regression的時候,分組比較是非常常見的,有時候為了看出兩組或多組之間的差異,最簡單的方式就是用圖表呈現,如下圖所示。要怎麼畫這個圖表呢?Stata有很多方式可以作,這裡提供兩種。
1.png
方法一:
regress inc educ male, beta
predict incfnoi if male==0
predict incmnoi if male==1

twoway (connected incmnoi educ if male==1, lcolor(black) ///
lpattern(dot) msymbol(diamond) msize(large)) ///
(connected incfno educ if male ==0, lcolor(black) ///
lpattern(solid) msymbol(circle) msize(large)), ///
ytitle(Income in thousands) xtitle(Education) ///
legend(order(1 "Men" 2 "Women")) scheme(s2manual)
上面這段程式是從A gentle introduction to Stata 抄來的,這本書的相關介紹可見這篇文章:Stata書籍介紹。出來的圖就向上面的圖一樣。

方法二:

net describe postgr3, from(<a href="http://www.ats.ucla.edu/stat/stata/ado/analysis">http://www.ats.ucla.edu/stat/stata/ado/analysis</a>)

Stata: 如何分組畫regression line Read More »

p值的迷思:顯著與非常顯著

在很多統計方法裡都會看到p值, 通常在許多期刊表格的下方都會看到*p<0.05, **p<0.01, ***p<0.001,所以就說*是顯著,**是很顯著,***是非常顯著 (這裡的顯著指的是magnitude),所以說p<.001 的效果比p<.05的好,這樣說對嗎?

要回答這個問題就要先回到p的定義。

p值 (也有人用p value) 用簡單的語言說,就是此測試結果有百分之幾的可能是由於機率的關係,再簡單一點就是出錯的機率,所以p<0.05 的意思就是此檢定小於5%的可能是由於機率。所以p value是檢驗是否有顯著差異,但不同的p值不代表顯著差異的大小。另外,p值越小,不代表就越能反駁統計假設,這僅能表示出錯的機率而已。

p值的迷思:顯著與非常顯著 Read More »

Scroll to Top