統計分析

如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores)

分析前後測的方式其實有很多，先從最常見的一種講起——進步分數（Gain Score）。一般說來，實驗設計都有 control group 和 treatment group，這兩組都接受了 pre-test 和 post-test。研究問題很直接：此 treatment 是不是有顯著的效果？想清楚研究問題後，做法就簡單了。第一件事，建立一個新變數：post-test 減 pre-test，這就是每個受試者的「進步分數」（Gain Score，也有人叫差異分數 Difference Score）。接著拿這個分數來比較實驗組和對照組：兩組就跑 independent-samples t-test，超過兩組才用 one-way ANOVA。如果你用 SPSS 但不熟悉怎麼跑或解讀結果，可以參考這篇：SPSS: one-way ANOVA 教學。

Gain Score 的限制——從信度爭論說起

Gain Score 直觀，但並非沒有批評。早在 1970 年，Cronbach & Furby 就提出質疑，認為在許多情況下 gain score 的分析不如 ANCOVA 有效率，部分原因涉及測量誤差的累積。他們的核心論點是：差異分數的信度，取決於前後測各自的信度、兩次測量的變異是否相近，以及前後測相關的高低——這幾個條件共同決定了 gain score 的測量品質，不能一概而論。不過，這個批評並不是蓋棺論定。Allison（1990）等學者後來指出，gain score 在某些研究設計下是合理甚至適當的選擇。換句話說，「用 gain score 就是有問題」這個說法太過絕對。 實務上比較有共識的是： 在隨機分派的前後測設計中，ANCOVA 和 gain score 都能給出不偏的效果估計，但 ANCOVA 通常有較高的統計考驗力（Power）——也就是說，ANCOVA 更有機會偵測到真實存在的效果。所以在條件允許下，ANCOVA 往往是較推薦的做法。

Lord’s Paradox：同一份資料，兩種方法，結論相反？

如果你開始懷疑「那改用 ANCOVA 會不會比較好」，你的直覺方向是對的。但在決定之前，有一個經典問題值得先了解——Lord’s Paradox（洛德悖論）。統計學家 Frederic Lord 曾提出這樣的情境：用同一份前後測資料，一個研究者用 Gain Score 跑分析，另一個用前測當共變數跑 ANCOVA，結果兩人得出了完全相反的結論——一個說 A 組比較好，另一個說 B 組比較好。為什麼會這樣？原因有幾層：

兩種方法回答的問題不同：Gain Score 問的是「哪一組的絕對成長量比較大」，ANCOVA 問的是「若起跑點相同，哪一組的後測表現比較好」。
兩者處理基線（baseline）差異的方式不同：ANCOVA 直接用前測來調整，Gain Score 則是相減後不再對基線做任何處理。
迴歸到平均值（regression to the mean） 的影響也不一樣：前測分數偏高的人，後測往往自然下降一些；前測偏低的人，後測往往自然回升。這個現象在兩組方法中產生的干擾程度是不對稱的。

這不是哪個方法算錯了，而是它們切入問題的角度根本不同。當兩組在前測就有顯著差異時，這兩個問題的答案很可能就不一樣。想深入了解殘餘改變分數（Residualized Change Score）的做法，可以讀這篇：如何分析前後測：殘餘改變分數。

什麼時候用 Gain Score？設計決定你的選擇

那 Gain Score 到底什麼時候合適？關鍵不在方法本身，而在你的研究設計。 真正的隨機分派實驗（Randomized Experiment） 如果你做到了真正的隨機分派，兩組的起跑點在理論上是對等的。在這個條件下，gain score 分析和 ANCOVA 都能給出不偏的效果估計。但 ANCOVA 利用了前測分數來降低誤差變異，通常統計考驗力更高——所以實務上首選 ANCOVA，gain score 可以作為補充或穩健性檢驗（robustness check）。 準實驗設計（Quasi-Experiment） 這是教育和社會科學中最常見的情況。因為不能隨機分班，兩組在前測往往就有差異。這種情況下，ANCOVA 常被使用，但它不是萬能的解法。ANCOVA 能否給出不偏的估計，取決於幾個前提：基線變數是否足夠、迴歸斜率是否在組間同質、是否存在嚴重的未觀察混淆。這些條件在準實驗中不一定成立。同樣地，gain score 在這種情境下也不保證無偏。兩種方法都有各自的假設，違反假設時都可能給出誤導性的結果。如果前測差異很大，或者你擔心有系統性的選擇偏誤（selection bias），單靠 gain score 或 ANCOVA 都不夠。這時候需要更認真思考整體的因果推論策略——例如傾向分數方法（propensity score methods）、統計加權、或者考量縱貫性/多層次模型——但採用哪種方法，取決於你的研究設計、假設，以及資料結構。結論統計方法沒有絕對的對錯，只有「適不適合你的設計與研究問題」。下次拿到前後測資料，先確認你的研究設計是隨機還是準實驗，再選擇對應的分析工具，才不會走錯方向。

如果有問題，歡迎留言。

參考文獻

Allison, P.

…

如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores) Read More »

Stata書籍介紹

11 Comments / 統計分析 / By researcher20

Stata中文方面的書籍不多，我自己也是從書上和網路上學的。如果你對Stata有興趣而且想自學的話，我覺得下面這兩本書不錯：A gentle introduction to Stata 和 Statistics with Stata。這兩本書你也可以在部落格上方選單裡的「書齋」裡找到，在那裡訂購與在Amazon訂購是一樣的，但本站會有額外的收入。如果你想支持本站的話，可透過此處購買，不然你可以直接到Amazon打上書名，就不要點上面的連結了。

先介紹這本A gentle introduction to Stata (目前出到第三版了)。這本是入門級的好書，如果你從沒用過Stata或是SAS，而且覺得寫種式來跑統計比較方便，那這本我覺得是首選的書。另外一提的是作者Alan C.…

Stata書籍介紹 Read More »

Stata: 輸出correlation的表格

14 Comments / 統計分析 / By researcher20

最近忙碌地在寫article，意思就是有一堆表格要畫。好在之前學會了stata如何輸出regression table，不然我這篇article有十張表格，畫這些肯定就要整整一天了，更不用說你想要改model時，需要跑比較多次，然後再來比較。
講過了regression table怎麼畫，那correlation的table要怎麼畫呢？這裡提供兩種方式：一種是copy table的方式，一種是用esttab來畫的。

Copy table的方式是不用下指令的，等stata跑完correlate之後，把你的表格選起來，然後在選單的edit選copy table，我習慣是貼到excel再處理。

什麼？correlate沒有星星你不要？那你跑correlation的時候，記得用pwcorr，後面加上star (.05)。整句會像這樣：

pwcorr X1 X2 X3 X4, star(.05)

跑出來就會有星星了。輸出一樣就用copy table的方式就可以了。

另外一種方式就是用程式了，主要是用esttab這個指令。由於沒什麼很大的差別，就不多說了，自己剪貼修改就可以了。

estpost correlate x1 x2 x3 x4, matrix listwise
est store c1
esttab * using test_correlation.rtf,

…

Stata: 輸出correlation的表格 Read More »

選哪種圖表好？(chart chooser)

3 Comments / 文書處理, 統計分析 / By researcher20

作簡報時，常常會用到許多圖表以輔助你的說明。那要選擇什麼樣的圖表呢？有一個網站在介紹The extreme presentation method (終極簡報法), 裡面介紹了一些簡報的技巧與實用的知識。裡面有一篇文章是講chart chooser，告訴你選圖表時的一些依據。

中文版：http://extremepresentation.typepad.com/blog/2009/01/chart-chooser-in-chinese.html…

選哪種圖表好？(chart chooser) Read More »

Stata: regression的interaction

11 Comments / 統計分析 / By researcher20

Stata要作regression很簡單，像這樣：

regress  y x1 x2, beta

但是要作interaction怎麼辦？依regression的公式，很容易就想成「加上一個x1*x2」就好了嘛…..錯，不給我跑 @@

正確做法是先產生一個變數，此變數是x1*x2，然後再把這個變數丟進regression裡。

gen x1x2=x1*x2
regress y x1 x2 x1x2

指令很簡單，只不過是習慣問題而已。貌似這幾天我「直覺」打上x1*x2然後看stata給我紅字的次數已經好幾次了…

…

Stata: regression的interaction Read More »

如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores)

Gain Score 的限制——從信度爭論說起

Lord’s Paradox：同一份資料，兩種方法，結論相反？

什麼時候用 Gain Score？設計決定你的選擇

相關文章

參考文獻

Stata書籍介紹

Stata: 輸出correlation的表格

選哪種圖表好？(chart chooser)

Stata: regression的interaction