統計分析 - 研究生2.0

多重比較 Multiple comparisons

在用 ANOVA 時，會得到一個 F-test，這個 test 只能告訴你整個 model 是否顯著 (i.e., 總體平均數不相同或不完全相同)，並不能告訴你特定的組與組之間是否有差異。有很多種方法可以比較組間的平均值是否有差異，這些方式就稱作多重比較 (multiple comparisons) (註：這裡只說事後比較，不提事前比較)。

那為什麼有這麼多種方式，不要有一種就好？好問題，因為問題的核心是 Type I errors。不同的方法有不同的假設與處理 Type I errors 的方式。那為什麼問題的核心是 Type I errors呢？因為就整個 model 的 F-test 來說，你只有一個比較，換言之，你只要處理一次 Type I error 即可。但當你作多重比較時，你就要處理很多次 Type I error (三組間的比較就要處理三次，四組就要六次) ，在這情況下，就要調整 error rate 以免不小心犯了 Type I error 了。

如果要作 post hoc comparisons (有人叫 posteriori test) ，有許多選擇：1) Fisher’s Least Significant Difference (又稱為 LSD)；2) Tukey’s Test；3) The Ryan Procedure (REGWQ)；4) The Scheffé Test；5) Dunnett’s test for comparing all treatments with a control。

會產生這麼多方法，主要是比較的方式不同。有的方法是與均值作比較 (i.e.,…

多重比較 Multiple comparisons Read More »

Stata: 圖解 xtreg 結果

1 Comment / 統計分析 / By researcher20

這篇是自己的筆記，主要是最近在學 hierarchical liner modeling (HLM) ，以及如何用 Stata xtreg 指令 (當然還有其它的) 來分析。
這部分的內容是節錄&翻譯&改寫自 Multilevel and longitudinal modeling using Stata。

use http://www.stata-press.com/data/mlmus2/smoking…

Stata: 圖解 xtreg 結果 Read More »

解讀OLS Regression中log transformed之後的變數

11 Comments / 統計分析 / By researcher20

一般而言，OLS regression 的結果都可以寫成像下面的公式：

Y= a + b1*X1 + b2*X2

Y是dependent variable (簡稱DV)，a是constant，X1與X2是 independent variables (簡稱IV)，b1與b2是與其對應的coefficient。

解讀這樣的方程式一點都不難。X1變數增加1的話，Y會相對應的增加b1；X2變數增加1的話，Y會增加b2。

但是，如果你的變數經過了logarithmic transformation，也就是取了對數之後，事情就變得比較複雜了。首先要記得的是：log transformation之後的解讀，都是跟percent有關。

狀況一：將DV取對數，IV維持不變

寫成公式還是一樣的：logY = a + b1*X1 + b2*X2

用logY表示DV已取了對數，b1與b2是新得到的coefficient。解讀是：X1增加1的話，Y隨之增加 100*b1 個%。

狀況二：將IV取對數，DV維持不變

公式：Y = a + b1*logX1 + b2*logX2

解讀是：X1增加1%的話，Y會增加 b1/100。

狀況三：將DV與IV都取對數

公式： logY = a + b1*logX1 + b2*logX2

解讀是：X1 增加1%，Y增加b1 %。

狀況三就是計量經濟提到的elasticity。

參考網頁：https://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm…

解讀OLS Regression中log transformed之後的變數 Read More »

Stata: 如何分組畫regression line

Leave a Comment / 統計分析 / By researcher20

在作regression的時候，分組比較是非常常見的，有時候為了看出兩組或多組之間的差異，最簡單的方式就是用圖表呈現，如下圖所示。要怎麼畫這個圖表呢？Stata有很多方式可以作，這裡提供兩種。

方法一：
regress inc educ male, beta predict incfnoi if male==0 predict incmnoi if male==1

twoway (connected incmnoi educ if male==1, lcolor(black) ///
lpattern(dot) msymbol(diamond) msize(large)) ///
(connected incfno educ if male ==0, lcolor(black) ///
lpattern(solid) msymbol(circle) msize(large)), ///
ytitle(Income in thousands) xtitle(Education) ///
legend(order(1 "Men" 2 "Women")) scheme(s2manual)
上面這段程式是從A gentle introduction to Stata 抄來的，這本書的相關介紹可見這篇文章：Stata書籍介紹。出來的圖就向上面的圖一樣。

方法二：

net describe postgr3, from(<a href="http://www.ats.ucla.edu/stat/stata/ado/analysis">http://www.ats.ucla.edu/stat/stata/ado/analysis</a>)…

Stata: 如何分組畫regression line Read More »

p值的迷思：顯著與非常顯著

24 Comments / 統計分析 / By researcher20

在很多統計方法裡都會看到p值，通常在許多期刊表格的下方都會看到*p<0.05, **p<0.01, ***p<0.001，所以就說*是顯著，**是很顯著，***是非常顯著 (這裡的顯著指的是magnitude)，所以說p<.001 的效果比p<.05的好，這樣說對嗎？

要回答這個問題就要先回到p的定義。

p值 (也有人用p value) 用簡單的語言說，就是此測試結果有百分之幾的可能是由於機率的關係，再簡單一點就是出錯的機率，所以p<0.05 的意思就是此檢定小於5%的可能是由於機率。所以p value是檢驗是否有顯著差異，但不同的p值不代表顯著差異的大小。另外，p值越小，不代表就越能反駁統計假設，這僅能表示出錯的機率而已。

…

p值的迷思：顯著與非常顯著 Read More »