如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores)
Gain Score 的限制——從信度爭論說起
Gain Score 直觀,但並非沒有批評。 早在 1970 年,Cronbach & Furby 就提出質疑,認為在許多情況下 gain score 的分析不如 ANCOVA 有效率,部分原因涉及測量誤差的累積。他們的核心論點是:差異分數的信度,取決於前後測各自的信度、兩次測量的變異是否相近,以及前後測相關的高低——這幾個條件共同決定了 gain score 的測量品質,不能一概而論。 不過,這個批評並不是蓋棺論定。Allison(1990)等學者後來指出,gain score 在某些研究設計下是合理甚至適當的選擇。換句話說,「用 gain score 就是有問題」這個說法太過絕對。 實務上比較有共識的是: 在隨機分派的前後測設計中,ANCOVA 和 gain score 都能給出不偏的效果估計,但 ANCOVA 通常有較高的統計考驗力(Power)——也就是說,ANCOVA 更有機會偵測到真實存在的效果。所以在條件允許下,ANCOVA 往往是較推薦的做法。Lord’s Paradox:同一份資料,兩種方法,結論相反?
如果你開始懷疑「那改用 ANCOVA 會不會比較好」,你的直覺方向是對的。但在決定之前,有一個經典問題值得先了解——Lord’s Paradox(洛德悖論)。 統計學家 Frederic Lord 曾提出這樣的情境:用同一份前後測資料,一個研究者用 Gain Score 跑分析,另一個用前測當共變數跑 ANCOVA,結果兩人得出了完全相反的結論——一個說 A 組比較好,另一個說 B 組比較好。 為什麼會這樣?原因有幾層:- 兩種方法回答的問題不同:Gain Score 問的是「哪一組的絕對成長量比較大」,ANCOVA 問的是「若起跑點相同,哪一組的後測表現比較好」。
- 兩者處理基線(baseline)差異的方式不同:ANCOVA 直接用前測來調整,Gain Score 則是相減後不再對基線做任何處理。
- 迴歸到平均值(regression to the mean) 的影響也不一樣:前測分數偏高的人,後測往往自然下降一些;前測偏低的人,後測往往自然回升。這個現象在兩組方法中產生的干擾程度是不對稱的。

什麼時候用 Gain Score?設計決定你的選擇
那 Gain Score 到底什麼時候合適?關鍵不在方法本身,而在你的研究設計。 真正的隨機分派實驗(Randomized Experiment) 如果你做到了真正的隨機分派,兩組的起跑點在理論上是對等的。在這個條件下,gain score 分析和 ANCOVA 都能給出不偏的效果估計。但 ANCOVA 利用了前測分數來降低誤差變異,通常統計考驗力更高——所以實務上首選 ANCOVA,gain score 可以作為補充或穩健性檢驗(robustness check)。 準實驗設計(Quasi-Experiment) 這是教育和社會科學中最常見的情況。因為不能隨機分班,兩組在前測往往就有差異。 這種情況下,ANCOVA 常被使用,但它不是萬能的解法。ANCOVA 能否給出不偏的估計,取決於幾個前提:基線變數是否足夠、迴歸斜率是否在組間同質、是否存在嚴重的未觀察混淆。這些條件在準實驗中不一定成立。同樣地,gain score 在這種情境下也不保證無偏。兩種方法都有各自的假設,違反假設時都可能給出誤導性的結果。 如果前測差異很大,或者你擔心有系統性的選擇偏誤(selection bias),單靠 gain score 或 ANCOVA 都不夠。這時候需要更認真思考整體的因果推論策略——例如傾向分數方法(propensity score methods)、統計加權、或者考量縱貫性/多層次模型——但採用哪種方法,取決於你的研究設計、假設,以及資料結構。 結論 統計方法沒有絕對的對錯,只有「適不適合你的設計與研究問題」。下次拿到前後測資料,先確認你的研究設計是隨機還是準實驗,再選擇對應的分析工具,才不會走錯方向。相關文章
如果有問題,歡迎留言。
參考文獻
- Allison, P.
如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores) Read More »




