統計分析

中介變數(mediator)與調節變數(moderator):一句話分清楚

「老師,我的 conceptual framework 有一個 mediator 和一個 moderator……」

我問:「你知道兩個的差別嗎?」

他想了很久:「都是在影響變數之間的關係?」

對了一半。但如果寫進論文,這個「一半」會讓方法段整個站不住腳。

中介變數與調節變數示意圖

中介變數(Mediator):解釋「機制」

Mediator 回答的問題是:IV 為什麼能影響 DV?透過什麼路徑?

舉個例子:

  • 使用 AI 寫作工具(IV)→ 降低認知負荷(Mediator)→ 提升寫作表現(DV)

「降低認知負荷」就是 mediator——它說明了 AI 工具如何影響學習的過程,是 IV 到 DV 的中間橋梁。

簡單說:Mediator 解釋機制,回答「怎麼來的」。

測試 Mediation 的步驟(Baron & Kenny, 1986)

要確認 mediation 是否存在,需要依序確認四個條件:

  1. IV → DV 有顯著關係(沒有這個,mediator 就沒意義)
  2. IV → Mediator 有顯著關係
  3. Mediator → DV 有顯著關係(控制 IV 之後)
  4. 放入 mediator 後,IV → DV 的係數減小(完全 mediation:降為不顯著;部分 mediation:係數仍顯著但變小)

⚠️ 現代研究多用 Bootstrap 法(如 PROCESS macro)取代 Baron & Kenny 步驟,更直接測試間接效果(indirect effect)的信賴區間。

調節變數(Moderator):解釋「條件」

Moderator 回答的問題是:IV 對 DV 的影響,在什麼情況下更強?更弱?對誰有效?

舉個例子:

  • AI 工具對寫作表現的影響(IV → DV),是否因學生的先備知識高低而不同?

「先備知識」就是 moderator——它不解釋機制,而是說明這個效果的邊界條件

如果你熟悉 ANOVA,moderator 其實就是交互作用(interaction)。

簡單說:Moderator 解釋條件,回答「對誰、在什麼情況下有效」。

一句話分辨兩者

Mediator = IV 透過什麼影響 DV(機制)
Moderator = IV 對 DV 的影響在什麼條件下改變(邊界)

你的研究問題就決定了你要用哪個:

  • 想解釋「為什麼有效」→ mediator
  • 想知道「對誰有效、什麼情況下有效」→ moderator

怎麼選:Baron & Kenny (1986) 的建議

這篇被引用超過 40,000 次的論文提供了一個務實的判斷原則:

  • 如果 IV 與 DV 之間的關係很穩定、很強→ 用 mediation 解釋它怎麼發生的
  • 如果 IV 與 DV 之間的關係不一致、有時強有時弱→ 先看 moderation,找出邊界條件

💡 如果兩者都想研究,就是 moderated mediationmediated moderation,進階但也更完整。

延伸閱讀

Baron, R.…

中介變數(mediator)與調節變數(moderator):一句話分清楚 Read More »

Stata: 比對部分字串變數

在作問卷時,有時候問題是 short answer,放到資料庫的時候會用一個字串來表示。如果假設我有一個變數,裡面是問受試者以後想要從事什麼行業,那就會出現五花八門的答案。
1.png
這時候可以作的,就是利用虛擬變量。假設答案裡面不管任何地方,只要出現 lawyer 的,你的 dummy 值為1,沒出現的則為 0。作法很簡單,只有一行而已:
gen dummy = strmatch(lawyer, "*lawyer*")
strmatch 是字串比對的指令,括號中的第一個變數是我的變數名字,第二個變數是要比對的字。但因為我設的規定是:不管 lawyer 出現在變數任何地方都可以,所以在此字串前後都加上了 *。那因為這是字串,所以最外面要加上””。
2.png

Stata: 比對部分字串變數 Read More »

如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score)

在很久很久以前我寫了一篇文章:如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores),利用進步分數 (gain scores,亦有人稱simple change model) 來作分析只是一種分析前、後測的方法而已。 另一種分析前、後測的方法則是 residualized change score (中文有人翻:殘餘改變分數),聽起來很 fancy 的名字,其實觀念很簡單,就是將 pre-test 的成績當作是共變數 (covariate) 放到你的方程式裡面。如果你本來是想作 ANOVA ,但想要用這種模式來作,那就會變成 ANCOVA (analysis of covariance),把pre-test 當作是共變數即可。如果原本是想作迴歸分析 (regression),那迴歸的公式會如下: Post-test score = b0 + b1 * Pre-test score + b2 * 其它變量 那這兩種模式有什麼不一樣呢?有的,這兩種方式問的問題不一樣。 如果是 simple change model,那你問的問題是:不同的兩組人之間是否在某件事的經驗上有不同程度的改變。換言之,你想要測試:兩組人之間,平均經驗的改變是否存在差異。 如果是 residualized change model,那你問的問題是:當控制了一開始的經驗之後,在第一組的人是否比第二組的人改變更多。 當然,有時候也有一些現實考量。統計學家指出:如果是 observational study,應該不要用 ANCOVA 或 residualized change model,而是用 simple change model。因為一開始的起點可能因為其它沒觀測的變數 (unobserved variables) 而影響。 如果是隨機分組並在 intervention 前作了 pre-test,這時候用 residualized change score 比較合適。 這裡只是簡單地介紹一下,至於詳細的內容與其它分析方式,有不少專書都涉及這方面,請大家自行翻閱。如有不足或疏漏,還請大家幫忙補充。 延伸閱讀Statistics: Gain scores vs.

如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score) Read More »

解讀 logistic regression

什麼是線性迴歸?(What is Multiple Linear Regression?) 談論過迴歸分析主要可用來作預測與作因果分析,那既然迴歸分析這麼好,為什麼還要談 logistic regression (中文有人翻:羅吉斯迴歸) 呢?

最主要的原因:在一般的迴歸分析中,dependent variable (DV) 是連續變項 (continuous variable);如果 DV 不是連續變項,而是二分變項 (dichotomous variable,如:男或女、存活或死亡、通過考試與否) 等情況,這時你就必須使用 logistic regression 了

當然,如果你堅持的話,你也可以跑 OLS regression,一樣會得到結果的。如果你得到的 coefficient 是 0.066 的話,解讀就是:當 IV 增加 1 的時候,DV 發生的機率增加 6.6% 。然而,這樣作是有缺點的,通常沒辦法準確地估算 IV 對 DV 的影響 (通常是低估)。

為了解決這個問題,統計學家用 odds ratio (勝算比) 於 logistic regression 之中。要說勝算比之前,要先了解什解什麼是勝算勝算指的是:一件事情發生的機率與一件事情沒發生機率的比值。以拋硬幣為例,拿到正面與拿到反面的機率都是 0.5,所以odds ratio 就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ,那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ,那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間

odds ratio 則是兩件事情的 odds 作比較。舉個例子來說,如果高學歷的人寫部落格的勝算(odds) 是  2.33,低學歷的人寫部落格的勝算是 0.67,那與低學歷的人比起來,高學歷的人寫作部落格的勝算是他們的 3.48 倍 (2.33/0.67),所以勝算比 (odds ratio)就是3.48

那如何解讀 logistic regression 的結果呢?通常你會看到文章裡呈現兩種結果:一種如果沒特別指名的話,就叫 coefficient,它的 DV 是某件事的 log odds ratio ,是勝算比取了自然對數;一種是 odds ratio 。這兩種值是可以互相轉換的,如果你的 log odds ratio 得到的 coefficient 是 0.405,你可以計算 odds ratio ,在 stata 指令列輸入 dis exp(0.405),會得到1.500。所以在讀文章的時候一定要讀清楚作者呈現的是 log odds ratio 或是 odds ratio

結果怎麼解讀呢?可從 log odds ratio 開始,解讀是:當 IV 增加一單位,log odds  會增加 ##。其實這解讀與 OLS regression 的解讀是一樣。如果你看到的是 odds ratio,解讀是:當 IV 增加一單位,odds 會增加 (##-1)*100%。兩種解讀方式都套上剛剛的數字,那結果會是:

log odds ratio: 當 IV 增加 1,log odds ratio of 某件事會增加 0.405 (請原諒我的英式中文@@)。

odds ratio: 當 IV 增加1,odds of 某件事會增加 (1.5-1)*100% = 50%。所以如果本來是 2,增加 50%的話,會變成 2 * 50% + 2 = 3 。換句話說,你也可以直接解讀為:當 IV 增加1,odds 某件事 (或是某件事的勝算。注意:這裡是勝算,不是勝算比) 會變成原本的值乘以1.5

如果你的勝算比 odds ratio 的 coefficient 是 0.667,那應該怎麼解讀呢?當 IV 增加1,某件事的勝算變成原本的值 (or 勝算) 乘以0.667。所以原本的勝算比如果是 3 的話,當 IV 增加1時,某件事的勝算會變成 2。你也可以說:當 IV 增加 1 時,某件事的勝算會減少 (1-.667)* 100% =33%

延伸閱讀

Logistic Regression介紹—晨晰統計林星帆顧問整理 http://tw.myblog.yahoo.com/da_sanlin/article?mid=1013&sc=1

解讀 logistic regression Read More »

多重比較 Multiple comparisons

在用 ANOVA 時,會得到一個 F-test,這個 test 只能告訴你整個 model 是否顯著 (i.e., 總體平均數不相同或不完全相同),並不能告訴你特定的組與組之間是否有差異。有很多種方法可以比較組間的平均值是否有差異,這些方式就稱作多重比較 (multiple comparisons) (註:這裡只說事後比較,不提事前比較)。

那為什麼有這麼多種方式,不要有一種就好?好問題,因為問題的核心是 Type I errors。不同的方法有不同的假設與處理 Type I errors 的方式。那為什麼問題的核心是 Type I errors呢?因為就整個 model 的 F-test 來說,你只有一個比較,換言之,你只要處理一次 Type I error 即可。但當你作多重比較時,你就要處理很多次 Type I error (三組間的比較就要處理三次,四組就要六次) ,在這情況下,就要調整 error rate 以免不小心犯了 Type I error 了。

如果要作 post hoc comparisons (有人叫 posteriori test) ,有許多選擇:1) Fisher’s Least Significant Difference (又稱為 LSD);2) Tukey’s Test;3) The Ryan Procedure (REGWQ);4) The Scheffé Test;5) Dunnett’s test for comparing all treatments with a control。

會產生這麼多方法,主要是比較的方式不同。有的方法是與均值作比較 (i.e.,…

多重比較 Multiple comparisons Read More »

Scroll to Top