許多人(包括我自己)在學統計時,總是被這一堆術語搞得頭昏腦脹。每一個分析都聽得清清楚楚,考試也都可以拿高分,但等到自己面對一大堆資料要動手分析時,卻不知道該用哪一種方法。
如果你不知道什麼時候要用卡方檢定、T-test (t檢定)、Anova或Regression,但每一項的計算和原理你都清楚,那請你接著往下看,希望本文可以幫助你掌握統計方法使用時機。
t檢定
首先要談的是T-test。t檢定主要是檢驗兩組之間是否有均值的差異(當然也有one sample t-test,不過較少使用),所以條件是有兩組也只能有兩組。
組別是類別變數(categorical variable),像是性別、種族、國籍。如果是連續變數,也可以設一個標準,多少以上是好的,以下是差的,以此來產生類別變數。
如果超過兩組,必須用Anova來分析。
另外,常犯的錯就是把前、後測是否有顯著差異用two-sample t-test來檢定,不能「假裝」把前測當一組,後測當一組,拿來做two-sample T檢定,而是應該用paired-sample t-test來檢驗是否有差異。如果對分析前後測有興趣,可以參看下面文章如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores) 和如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score)。
One-way ANOVA 單因子變異數分析
One-way Anova(單因子變異數分析)是只有一個類別變數當作independent variable,檢驗此類別變數與其它連續變數(continuous variable)之間的關係。具體一點講,one-way ANOVA (單因子變異數分析),就是在查看組間是否存在平均值的差異。
比方說:如果你想看性別對數學成績的影響,性別就是類別變數,數學成績是結果變數(outcome variable)。
Two-way ANOVA 雙因子變異數分析
Two-way Anova(雙因子變異數分析)是有兩個以上的類別變數作為independent variables。比如說性別、種族對數學成績的影響,性別和種族就是類別變數。
線性回歸 Multiple Regression
線性回歸簡單的說,就是看兩個或是多個連續變量之間的關係。如果想對線性回歸有更進一步的了解,可參考這篇文章什麼是線性迴歸?(What is Multiple Linear Regression?)。
前面講的t檢定,單因子變異數分析,雙因子變數分析,都是看組間是否存在著平均值的差異。線性回歸雖然也可以做到這點,但大部分都是看連續變項之間的關係。如果想要知道線性回歸如何做到組間的比較,可以看看這篇文章什麼是虛擬變量?(What is dummy variable?)。
統計檢定方法使用時機
問題來了,什麼時候用Anova,什麼時候用Regression呢?這兩者有何不同?
其實Anova就是(Linear) Regression,不同點就在Anova裡面有類別變數而已。
如果你跑ANOVA跟regression(當然跑regression會要用dummy variable),你會得到一樣的結果。換言之,Linear regression裡的變數均為連續變數或dummy variable,如:年齡、IQ、成績、體重等,沒有類別變數。如果想知道更多關於regression,可參考這篇:什麼是線性迴歸?(What is Multiple Linear Regression?) 。只要懂了這個,我覺得初、中級的統計就沒什麼問題了。
卡方檢定
最後說說卡方檢定(Chi-square)。
先想想卡方檢定測的是什麼?對,是比例,而前面講的都是平均值的差異。
那你可能會有問題,T-test與Anova比的是什麼呢?當然不是比例,而是平均值是否有差異。
卡方測的是一件事情,在各組發生的比例是否相同。
在繼續說之前,要先記得,卡方檢定的變數不是連續變數,也不是ordinal variable,而是名目變數(nominal variables,又稱為categorical variable),也就是「是與否」、「男與女」這種變數。
所以常見的問題就是:男女和素食行為,或是男女與是否有大學學歷等。
最後要說一點,我不是統計系的,寫這個也只是說出自己的理解而已。如果有不對的地方,還歡迎網友指正。
2009/4/17 補充:
如果上面的分析還不夠清楚,你想要看「用哪種統計分析方式好」終極版(英文),請到這個網頁參考:http://www.ats.ucla.edu/stat/mult_pkg/whatstat/default.htm
2011/11/18修正:原本寫的是
「另外,常犯的錯就是把前、後測是否有顯著差異用T-test來檢定。即使有兩組,前、後測也不是用T-test來檢定的,更別說有人「假裝」把前測當一組,後測當一組,拿來做T檢定。」
這並不準確,現已修正為:
「另外,常犯的錯就是把前、後測是否有顯著差異用two-sample t-test來檢定,不能「假裝」把前測當一組,後測當一組,拿來做two-sample T檢定,而是應該用paired-sample t-test來檢驗是否有差異。」
感謝川爸指正!
2017/9/18 更新:將文章加入副標題,提高可閱讀性,並加入multiple regression、統計分析使用時機的部分。