統計分析 - 研究生2.0

中介變數(mediator)與調節變數(moderator)：一句話分清楚

6 Comments / 統計分析 / By researcher20

「老師，我的 conceptual framework 有一個 mediator 和一個 moderator……」

我問：「你知道兩個的差別嗎？」

他想了很久：「都是在影響變數之間的關係？」

對了一半。但如果寫進論文，這個「一半」會讓方法段整個站不住腳。

中介變數（Mediator）：解釋「機制」

Mediator 回答的問題是：IV 為什麼能影響 DV？透過什麼路徑？

舉個例子：

使用 AI 寫作工具（IV）→ 降低認知負荷（Mediator）→ 提升寫作表現（DV）

「降低認知負荷」就是 mediator——它說明了 AI 工具如何影響學習的過程，是 IV 到 DV 的中間橋梁。

簡單說：Mediator 解釋機制，回答「怎麼來的」。

測試 Mediation 的步驟（Baron & Kenny, 1986）

要確認 mediation 是否存在，需要依序確認四個條件：

IV → DV 有顯著關係（沒有這個，mediator 就沒意義）
IV → Mediator 有顯著關係
Mediator → DV 有顯著關係（控制 IV 之後）
放入 mediator 後，IV → DV 的係數減小（完全 mediation：降為不顯著；部分 mediation：係數仍顯著但變小）

⚠️ 現代研究多用 Bootstrap 法（如 PROCESS macro）取代 Baron & Kenny 步驟，更直接測試間接效果（indirect effect）的信賴區間。

調節變數（Moderator）：解釋「條件」

Moderator 回答的問題是：IV 對 DV 的影響，在什麼情況下更強？更弱？對誰有效？

舉個例子：

AI 工具對寫作表現的影響（IV → DV），是否因學生的先備知識高低而不同？

「先備知識」就是 moderator——它不解釋機制，而是說明這個效果的邊界條件。

如果你熟悉 ANOVA，moderator 其實就是交互作用（interaction）。

簡單說：Moderator 解釋條件，回答「對誰、在什麼情況下有效」。

一句話分辨兩者

Mediator = IV 透過什麼影響 DV（機制）
Moderator = IV 對 DV 的影響在什麼條件下改變（邊界）

你的研究問題就決定了你要用哪個：

想解釋「為什麼有效」→ mediator
想知道「對誰有效、什麼情況下有效」→ moderator

怎麼選：Baron & Kenny (1986) 的建議

這篇被引用超過 40,000 次的論文提供了一個務實的判斷原則：

如果 IV 與 DV 之間的關係很穩定、很強→ 用 mediation 解釋它怎麼發生的
如果 IV 與 DV 之間的關係不一致、有時強有時弱→ 先看 moderation，找出邊界條件

💡 如果兩者都想研究，就是 moderated mediation 或 mediated moderation，進階但也更完整。

延伸閱讀

Baron, R.…

中介變數(mediator)與調節變數(moderator)：一句話分清楚 Read More »

Stata: 比對部分字串變數

Leave a Comment / 統計分析 / By researcher20

在作問卷時，有時候問題是 short answer，放到資料庫的時候會用一個字串來表示。如果假設我有一個變數，裡面是問受試者以後想要從事什麼行業，那就會出現五花八門的答案。

這時候可以作的，就是利用虛擬變量。假設答案裡面不管任何地方，只要出現 lawyer 的，你的 dummy 值為1，沒出現的則為 0。作法很簡單，只有一行而已：
gen dummy = strmatch(lawyer, "*lawyer*")
strmatch 是字串比對的指令，括號中的第一個變數是我的變數名字，第二個變數是要比對的字。但因為我設的規定是：不管 lawyer 出現在變數任何地方都可以，所以在此字串前後都加上了 *。那因為這是字串，所以最外面要加上””。

…

Stata: 比對部分字串變數 Read More »

如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score)

2 Comments / 統計分析 / By researcher20

在很久很久以前我寫了一篇文章：如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores)，利用進步分數 (gain scores，亦有人稱simple change model) 來作分析只是一種分析前、後測的方法而已。另一種分析前、後測的方法則是 residualized change score (中文有人翻：殘餘改變分數)，聽起來很 fancy 的名字，其實觀念很簡單，就是將 pre-test 的成績當作是共變數 (covariate) 放到你的方程式裡面。如果你本來是想作 ANOVA ，但想要用這種模式來作，那就會變成 ANCOVA (analysis of covariance)，把pre-test 當作是共變數即可。如果原本是想作迴歸分析 (regression)，那迴歸的公式會如下： Post-test score = b0 + b1 * Pre-test score + b2 * 其它變量那這兩種模式有什麼不一樣呢？有的，這兩種方式問的問題不一樣。如果是 simple change model，那你問的問題是：不同的兩組人之間是否在某件事的經驗上有不同程度的改變。換言之，你想要測試：兩組人之間，平均經驗的改變是否存在差異。如果是 residualized change model，那你問的問題是：當控制了一開始的經驗之後，在第一組的人是否比第二組的人改變更多。當然，有時候也有一些現實考量。統計學家指出：如果是 observational study，應該不要用 ANCOVA 或 residualized change model，而是用 simple change model。因為一開始的起點可能因為其它沒觀測的變數 (unobserved variables) 而影響。如果是隨機分組並在 intervention 前作了 pre-test，這時候用 residualized change score 比較合適。這裡只是簡單地介紹一下，至於詳細的內容與其它分析方式，有不少專書都涉及這方面，請大家自行翻閱。如有不足或疏漏，還請大家幫忙補充。 延伸閱讀： Statistics: Gain scores vs.…

如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score) Read More »

解讀 logistic regression

21 Comments / 統計分析 / By researcher20

在什麼是線性迴歸？(What is Multiple Linear Regression?) 談論過迴歸分析主要可用來作預測與作因果分析，那既然迴歸分析這麼好，為什麼還要談 logistic regression (中文有人翻：羅吉斯迴歸) 呢？

最主要的原因：在一般的迴歸分析中，dependent variable (DV) 是連續變項 (continuous variable)；如果 DV 不是連續變項，而是二分變項 (dichotomous variable，如：男或女、存活或死亡、通過考試與否) 等情況，這時你就必須使用 logistic regression 了。

當然，如果你堅持的話，你也可以跑 OLS regression，一樣會得到結果的。如果你得到的 coefficient 是 0.066 的話，解讀就是：當 IV 增加 1 的時候，DV 發生的機率增加 6.6% 。然而，這樣作是有缺點的，通常沒辦法準確地估算 IV 對 DV 的影響 (通常是低估)。

為了解決這個問題，統計學家用 odds ratio (勝算比) 於 logistic regression 之中。要說勝算比之前，要先了解什解什麼是勝算。勝算指的是：一件事情發生的機率與一件事情沒發生機率的比值。以拋硬幣為例，拿到正面與拿到反面的機率都是 0.5，所以odds ratio 就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ，那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ，那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間。

odds ratio 則是兩件事情的 odds 作比較。舉個例子來說，如果高學歷的人寫部落格的勝算(odds) 是 2.33，低學歷的人寫部落格的勝算是 0.67，那與低學歷的人比起來，高學歷的人寫作部落格的勝算是他們的 3.48 倍 (2.33/0.67)，所以勝算比 (odds ratio)就是3.48。

那如何解讀 logistic regression 的結果呢？通常你會看到文章裡呈現兩種結果：一種如果沒特別指名的話，就叫 coefficient，它的 DV 是某件事的 log odds ratio ，是勝算比取了自然對數；一種是 odds ratio 。這兩種值是可以互相轉換的，如果你的 log odds ratio 得到的 coefficient 是 0.405，你可以計算 odds ratio ，在 stata 指令列輸入 dis exp(0.405)，會得到1.500。所以在讀文章的時候一定要讀清楚作者呈現的是 log odds ratio 或是 odds ratio。

結果怎麼解讀呢？可從 log odds ratio 開始，解讀是：當 IV 增加一單位，log odds 會增加 ##。其實這解讀與 OLS regression 的解讀是一樣。如果你看到的是 odds ratio，解讀是：當 IV 增加一單位，odds 會增加 (##-1)*100%。兩種解讀方式都套上剛剛的數字，那結果會是：

log odds ratio: 當 IV 增加 1，log odds ratio of 某件事會增加 0.405 (請原諒我的英式中文@@)。

odds ratio: 當 IV 增加1，odds of 某件事會增加 (1.5-1)*100% = 50%。所以如果本來是 2，增加 50%的話，會變成 2 * 50% + 2 = 3 。換句話說，你也可以直接解讀為：當 IV 增加1，odds 某件事 (或是某件事的勝算。注意：這裡是勝算，不是勝算比) 會變成原本的值乘以1.5。

如果你的勝算比 odds ratio 的 coefficient 是 0.667，那應該怎麼解讀呢？當 IV 增加1，某件事的勝算會變成原本的值 (or 勝算) 乘以0.667。所以原本的勝算比如果是 3 的話，當 IV 增加1時，某件事的勝算會變成 2。你也可以說：當 IV 增加 1 時，某件事的勝算會減少 (1-.667)* 100% =33%

延伸閱讀：

Logistic Regression介紹—晨晰統計林星帆顧問整理 http://tw.myblog.yahoo.com/da_sanlin/article?mid=1013&sc=1…

解讀 logistic regression Read More »

多重比較 Multiple comparisons

4 Comments / 統計分析 / By researcher20

在用 ANOVA 時，會得到一個 F-test，這個 test 只能告訴你整個 model 是否顯著 (i.e., 總體平均數不相同或不完全相同)，並不能告訴你特定的組與組之間是否有差異。有很多種方法可以比較組間的平均值是否有差異，這些方式就稱作多重比較 (multiple comparisons) (註：這裡只說事後比較，不提事前比較)。

那為什麼有這麼多種方式，不要有一種就好？好問題，因為問題的核心是 Type I errors。不同的方法有不同的假設與處理 Type I errors 的方式。那為什麼問題的核心是 Type I errors呢？因為就整個 model 的 F-test 來說，你只有一個比較，換言之，你只要處理一次 Type I error 即可。但當你作多重比較時，你就要處理很多次 Type I error (三組間的比較就要處理三次，四組就要六次) ，在這情況下，就要調整 error rate 以免不小心犯了 Type I error 了。

如果要作 post hoc comparisons (有人叫 posteriori test) ，有許多選擇：1) Fisher’s Least Significant Difference (又稱為 LSD)；2) Tukey’s Test；3) The Ryan Procedure (REGWQ)；4) The Scheffé Test；5) Dunnett’s test for comparing all treatments with a control。

會產生這麼多方法，主要是比較的方式不同。有的方法是與均值作比較 (i.e.,…

多重比較 Multiple comparisons Read More »