48

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)

what_methods
許多人(包括我自己)在學統計時,總是被這一堆術語搞得頭昏腦脹。每一個分析都聽得清清楚楚,考試也都可以拿高分,但等到自己面對一大堆資料要動手分析時,卻不知道該用哪一種方法。如果你不知道什麼時候要用卡分檢定、T-test、Anova或Regression,但每一項的計算和原理你都清楚,那請你接著往下看,希望本文對你有幫助。

首先要談的是T-test。T檢定主要是檢驗兩組之間是否有差異(當然也有one sample t-test,不過較少使用),所以條件是有兩組只能有兩組。組別是類別變數(categorical variable),像是性別、種族、國籍。如果是連續變數,也可以設一個標準,多少以上是好的,以下是差的,以此來產生類別變數。如果超過兩組,必須用Anova來分析。另外,常犯的錯就是把前、後測是否有顯著差異用two-sample t-test來檢定,不能「假裝」把前測當一組,後測當一組,拿來做two-sample T檢定,而是應該用paired-sample t-test來檢驗是否有差異。

One-way Anova(單因子變異數分析)是只有一個類別變數當作independent variable,檢驗此類別變數與其它連續變數(continuous variable)和結果的關係。比方說如果你想看性別、IQ對數學成績的影響,性別就是類別變數,IQ是連續變數,數學成績是結果變數(outcome variable)。

Two-way Anova(雙因子變異數分析)是有兩個以上的類別變數作為independent variables。比如說性別、種族與IQ對數學成績的影響,性別和種族就是類別變數。

問題來了,什麼時候用Anova,什麼時候用Regression呢?這兩者有何不同?其實Anova就是(Linear) Regression不同點就在Anova裡面有類別變數而已。如果你跑ANOVA跟regression(當然跑regression會要用dummy variable),你會得到一樣的結果。換言之,Linear regression裡的變數均為連續變數或dummy variable,如:年齡、IQ、成績、體重等,沒有類別變數。如果想知道更多關於regression,可參考這篇:什麼是線性迴歸?(What is Multiple Linear Regression?) 。只要懂了這個,我覺得初、中級的統計,初、中級統計就沒什麼問題了。

最後說說卡方檢定(Chi-square)。先想想卡方檢定測的是什麼?對,是比例。那你可能會有問題,T-test與Anova比的是什麼呢?當然不是比例,而是平均的差異。卡方測的是一件事情,在各組發生的比例是否相同。在繼續說之前,要先記得,卡方檢定的變數不是連續變數,也不是ordinal variable,而是名目變數(nominal variables,又稱為categorical variable),也就是「是與否」、「男與女」這種變數。所以常見的問題就是:男女和素食行為,或是男女與是否有大學學歷等。

如果你已經弄糊塗了,可以參看下表
what_methods_1.png

what_methods_2.jpg
what_methods_3.jpg

最後要說一點,我不是統計系的,寫這個也只是說出自己的理解而已。如果有不對的地方,還歡迎網友指正。

2009/4/17 補充:
如果上面的分析還不夠清楚,你想要看「用哪種統計分析方式好」終極版(英文),請到這個網頁參考:http://www.ats.ucla.edu/stat/mult_pkg/whatstat/default.htm
2011/11/18修正:原本寫的是

「另外,常犯的錯就是把前、後測是否有顯著差異用T-test來檢定。即使有兩組,前、後測也不是用T-test來檢定的,更別說有人「假裝」把前測當一組,後測當一組,拿來做T檢定。」

這並不準確,現已修正為:

「另外,常犯的錯就是把前、後測是否有顯著差異用two-sample t-test來檢定,不能「假裝」把前測當一組,後測當一組,拿來做two-sample T檢定,而是應該用paired-sample t-test來檢驗是否有差異。」

感謝川爸指正!