Author name: researcher20

Bootstrap 中介效果:用 PROCESS macro 跑比 Baron & Kenny 更準

我指導過不少論文,有一個問題學生最常問:「老師,我用 Baron & Kenny 四步驟做中介分析,夠嗎?」

我的回答通常是:「在教育、心理、管理等領域,bootstrap 間接效果檢驗已經非常普遍,很多期刊和審稿人會期待看到。如果你還只用四步驟,很可能被要求補做。」

這篇從為什麼要改、怎麼跑、怎麼報告,一步一步說清楚。

先釐清一個學生最常有的誤解:中介分析不是在問「X 對 Y 還有沒有影響」,而是在問「X 是否透過 M 影響 Y」。 這個方向搞清楚,後面的邏輯才會通。

Baron & Kenny 四步驟,問題出在哪?

Baron & Kenny(1986)的四步驟中介檢驗,被引用超過 40,000 次,是教科書裡最常見的方法:

  1. X → Y 顯著(總效果 c path)
  2. X → M 顯著(a path)
  3. M → Y 顯著(b path,控制 X)
  4. 加入 M 後,X → Y 的效果減小或不顯著(中介成立)

這個方法的根本限制是:它用逐步顯著性來推論中介,而不是直接測試間接效果(indirect effect = a × b)的大小。

問題在於:a 顯著、b 顯著,不代表 a × b 顯著。反過來,a 或 b 個別不顯著,但 a × b 可能仍然顯著。這不是邏輯問題,是統計問題。

Sobel test 試圖直接測試 a × b,但它假設間接效果的抽樣分佈是常態的。而現實中,間接效果的分配往往是偏斜的(skewed),因此 Sobel test 在小樣本或中等樣本下容易過於保守、統計力不足,導致本來存在的間接效果被漏掉(Type II error)。

⚠️ 容易犯錯的地方:很多學生看到「X → Y 不顯著」就直接放棄做中介分析。但現代中介分析的觀點是:total effect 不顯著,仍然可能存在顯著的間接效果。X 可能透過 M 正向影響 Y,同時又有另一條路徑直接負向影響 Y,兩者抵消讓總效果看起來不顯著,但中介機制確實存在。

Bootstrap 的邏輯是什麼?

Bootstrap 不依賴間接效果分配是常態的假設,而是直接從你的資料出發,用重複抽樣建立信賴區間。邏輯如下:

  1. 從原始樣本中,重複有放回地隨機抽樣(通常 5000 次)
  2. 每一次都計算間接效果 a × b
  3. 把 5000 個 a × b 的值排序,取第 2.5 百分位和第 97.5 百分位,作為 95% 信賴區間(BootCI)
  4. 如果 95% BootCI 不包含 0 → 間接效果顯著

相較於 Sobel test,bootstrap 不依賴間接效果常態分配假設,更適合處理偏斜的間接效果分配,通常也有較佳的統計力。方法學文獻普遍建議以 bootstrap 信賴區間作為間接效果的主要檢驗方式,許多期刊也明確期待看到這種做法。

⚠️ 一個細節:PROCESS macro 提供兩種 bootstrap CI:percentile CI(直接取百分位)和 bias-corrected and accelerated CI(BCa,修正偏誤)。一般情況下 percentile CI 已經夠用,但如果間接效果分配明顯偏斜,BCa 更準確。PROCESS 預設是 percentile,若要改成 BCa 可在選項中設定。在論文裡報告時,說明你用的是哪種。

用 PROCESS macro 跑 Bootstrap 中介

Hayes 的 PROCESS macro 是目前最廣泛使用的工具,免費,支援 SPSS 和 SAS。

安裝:processmacro.org

Bootstrap 中介效果:用 PROCESS macro 跑比 Baron & Kenny 更準 Read More »

CFA 實作入門:驗證性因素分析步驟與常見錯誤

學生拿著 EFA 的結果來找我,說:「老師,我因素分析跑完了,接下來要跑 CFA 嗎?」

我問:「你為什麼要跑 CFA?」

他愣了一下:「就是…驗證一下?」

這個回答讓我知道,他還沒弄清楚 CFA 是什麼。這也是我想寫這篇的原因——CFA 的概念不難,但實作起來每個步驟都有人反覆在同樣的地方摔倒。

先講一個核心提醒:CFA 不是在證明你的量表一定正確,而是在檢驗你的理論模型是否站得住。 學生最常錯的,不是不會跑,而是把統計決策和理論論證分開了——審稿人最常抓的,也正是這個斷裂。

CFA 是什麼?跟 EFA 有什麼不同?

探索性因素分析(EFA)是在「不確定結構」的情況下使用的——你不確定有幾個因素、哪些題目應該歸在一起,所以讓資料自己告訴你。

驗證性因素分析(CFA)完全相反。你已經有一個明確的理論模型,然後用資料去驗證這個結構跟實際資料的配適程度。

CFA 的前提是:你有理論依據。 最常見的誤用是先跑 EFA 找出因素結構,再用同一份資料跑 CFA「驗證」——你用資料找出一個結構,再用同一份資料確認它,這叫過度擬合,不叫驗證。我看過不少論文這樣做,審稿意見也常常在這裡被抓到。

CFA 實作五步驟

驗證性因素分析 CFA 實作流程
CFA 實作流程與常見錯誤提醒

步驟一:建立理論模型

在正式跑分析之前,先把測量模型畫在紙上。你需要清楚指定:幾個潛在因素、每個因素對應哪些題項、因素之間是否允許相關、有沒有 cross-loading。

這個步驟很多學生跳過,直接打開 AMOS 開始畫。但跳過這步的學生,在後面遇到問題的時候,通常不知道問題出在模型設定還是資料本身。先把模型畫在紙上,思路會清楚很多。

在畫模型之前,我會要求學生逐題問自己:「這一題為什麼只能屬於這個因素,不屬於別的?」 這個問題問得清楚,後面很多麻煩就不會出現。

容易犯錯的地方:

  • 每個因素的題項數不夠。 我常看到學生把一個因素只放兩題,說「文獻原版就是這樣」。問題是兩個題項的因素在統計上無法識別(just-identified),連配適度指標都算不出來。最少要三題,建議四題以上。如果原始量表某個分量表真的只有兩題,需要在方法段說明並討論限制。
  • 跨文化量表直接套用原版因素結構。 學生拿英文量表翻成中文,就直接假設結構不變。翻譯後的題項語意可能已經不同,嚴格來說應該先用新的資料跑 EFA 確認結構,或至少在論文裡說明這個限制。
  • 構念邊界不清。 審稿人最常抓的是:某些題項文字看起來同時可屬於兩個因素,前面不先處理,後面 MI 和 cross-loading 會一直爆。

步驟二:設定模型規格

在 AMOS 裡,你在圖形介面畫橢圓(潛在因素)和方框(題項),用箭頭連起來。在 R lavaan 裡,用 =~ 語法定義:

f1 =~ q1 + q2 + q3 + q4
f2 =~ q5 + q6 + q7 + q8
f3 =~ q9 + q10 + q11 + q12

模型畫完還有一件必須做的事:固定因子尺度。 潛在因素本身沒有測量單位,需要人為固定一個尺度,模型才能估計。兩種做法:

  • 固定一個負荷量為 1(marker variable): AMOS 和 lavaan 預設。每個因素的第一個題項路徑固定為 1。
  • 固定潛在因素的變異量為 1: 讓所有負荷量都自由估計,適合要比較不同題項貢獻時。lavaan 語法:std.lv

CFA 實作入門:驗證性因素分析步驟與常見錯誤 Read More »

我拒了三篇稿:從審稿人的角度看,論文在哪裡斷掉的

我大概每年會審二十到三十篇論文。

大部分的時候,審稿是一件讓人又期待又沉重的事——期待是因為可以看到還沒發表的研究,沉重是因為你知道你的一份意見,可能影響一個人好幾個月的工作。

有時候,看完一篇稿子,我心裡第一個反應不是「這篇可以」或「這篇不行」,而是:「這篇如果早一年找人好好看過設計,現在就不用走到這一步。」

下面是三個真實的審稿故事。名字和細節已做模糊處理,但問題是真實存在的。

案例一:資料收集完了,才發現設計根本站不住腳

這篇研究想回答一個有意思的問題:AI 寫作工具是否提升了大學生的批判性思考?

設計是這樣的:一組學生用 AI 輔助寫作,另一組不用,學期末比較兩組的批判性思考評分。

問題不在問題本身,而在「誰決定哪個學生進哪組」這件事。

兩組是自選的——喜歡用 AI 的學生自然選了實驗組,習慣自己寫的選了控制組。這不是隨機分配,這是自我選擇偏誤(self-selection bias)——兩組學生在實驗開始之前,就已經不是同一群人了。

我在意見裡寫:「批判性思考的提升,可能來自本來就對科技更開放、學習動機更強的學生特質,而不是 AI 工具本身的效果。在目前的設計下,這兩個解釋無法被區分。」

作者回信說:「我們理解限制,但資料已經收完了,沒有辦法重做。」

我知道。這正是問題所在。

⚠️ 這類問題的本質:研究設計的缺陷,不是寫作問題,是在資料收集前就應該解決的問題。論文寫得再好,設計站不住,審稿人沒有辦法推薦接受。

案例二:測量的東西,跟理論說的不是同一件事

這篇的研究問題很清楚:探討教師的 AI 整合信念如何影響課堂實踐。

理論框架引用了 TAM(科技接受模型),並把「感知有用性」和「感知易用性」當作核心構念。

但問卷的題目是這樣的:「我認為 AI 工具可以節省備課時間」——這是一道行為意圖題,不是信念題。

整份問卷讀完,我發現:作者測量的是教師對 AI 的使用行為與意圖,但理論框架說的是信念結構。 這不是微小的落差,這是構念效度(construct validity)的根本問題。

更麻煩的是,討論部分的每一個結論,都是基於「信念影響實踐」這個前提展開的——但資料根本沒有測到信念。

我建議作者要嘛重新收資料,要嘛徹底修改理論框架,對齊現有的測量工具。兩條路都不短。

💡 實務提醒:在寫問卷之前,把每一道題放在理論構念旁邊比對——這道題測的,真的是那個構念嗎?是行為意圖、態度、信念、還是頻率?混用,是方法論最常見的問題之一。

案例三:資料說了 A,結論卻說了 B+C+D

這篇的資料其實相當紮實。研究對象清楚,測量工具有效度支撐,統計也跑對了。

在這種情況下,我通常會帶著期待往討論部分看。

然後我看到這樣一段:「本研究證明,AI 寫作支援能有效提升學習者的 L2 寫作能力,建議政策制定者在課程設計中全面推廣 AI 寫作工具。」

研究對象:某大學一個班,22 名學生,八週介入。

22 個人、一所學校、一種語言、八週——不是「全面推廣」的依據。

這不是謙虛的問題。這是研究結論必須待在資料能支撐的邊界內。「本研究在特定情境下的初步結果顯示……」和「建議全面推廣」,是兩個截然不同的表述,對應的是截然不同的研究規模與設計。

我的意見是:結論段必須重寫,所有超出樣本範圍的推論都必須加上明確的限制條件。

作者修改後再投,第二版好多了。這是三個案例裡唯一一篇後來過了的。

論文三個斷點:研究設計、測量效度、結論邊界

三個故事,一個共同點

回頭看這三篇,問題的本質其實不難歸納:

  • 案例一:研究設計的問題——研究開始之前就應該解決
  • 案例二:測量效度的問題——理論與工具必須對齊
  • 案例三:結論邊界的問題——資料說什麼,結論就說什麼

前兩個,資料收完之後無法補救。第三個可以,但需要真的願意縮小結論。

📌 如果你想看更系統性的拒稿原因分析(有數據支撐),可以參考這篇文章,整理了 155 篇過了初審卻在外審被拒的論文的六大原因:外審後還是被拒:審稿人最常看到的 6 個問題

給正在準備投稿的你

我不是要嚇你。我自己的稿件也被拒過,不只一次。

但有一件事我越來越確定:讓論文被拒的問題,幾乎都不是在寫作階段才出現的。 它們大多在研究設計、測量工具選擇、或分析邏輯那個時候就已經埋下了。

投稿之前,找一個你信任的人,用審稿人的眼光把你的方法部分從頭讀一遍。不是看格式,是看邏輯。

這件事花的時間,遠比等三個月外審結果再重做要少。

如果有問題,歡迎留言。

這篇文章改寫自 Threads 系列貼文,你可以在這裡看到原版討論串:審稿人視角:三篇拒稿背後的真實原因

更新記錄:2026-03 新建,改寫自 Threads 系列「審稿人視角:三篇拒稿背後的真實原因」。…

我拒了三篇稿:從審稿人的角度看,論文在哪裡斷掉的 Read More »

前後測統計方法選擇:常態假設怎麼看?

「老師,我跑完前後測,用 paired t-test 對嗎?」

這是我最常聽到的一句話——不是因為學生懶,而是因為沒有人告訴他們,方法選擇其實有一個清楚的判斷邏輯。

選哪種方法?兩個關鍵問題

前後測的統計方法,取決於兩件事:

  1. 你的資料是否符合常態分佈假設?
  2. 你有幾個時間點要比較?

這兩個問題決定了一切。

前後測統計方法選擇流程

四種情境與對應方法

常態 + 2個時間點(前測、後測)→ Paired t-test(配對樣本 t 檢定)

常態 + 3個以上時間點(前測、後測1、後測2……)→ Repeated-measures ANOVA(重複量數變異數分析)

非常態 + 2個時間點Wilcoxon signed-rank test

非常態 + 3個以上時間點Friedman test

怎麼確認常態假設?

很多人直接跑 Kolmogorov-Smirnov(K-S)檢定,但這是個常見錯誤:K-S 在樣本大的時候幾乎一定拒絕常態假設,讓你誤以為資料不符合常態分佈。

建議的做法:

  • 樣本數 < 50:使用 Shapiro-Wilk 檢定
  • 樣本數 ≥ 50:用 Q-Q Plot 加上 Skewness / Kurtosis 目視判斷

⚠️ 就算常態假設輕微違反,樣本數 > 30 時,t-test 仍然足夠穩健,不一定要換成非參數方法。

選定方法之後:怎麼呈現前後測的差異?

確定用哪種統計方法後,還有一個問題:你要用「差值」直接分析,還是用統計控制的方式?這涉及兩種常見的前後測分析策略:

  • 進步分數(Gain scores):後測分數 − 前測分數,直接拿差值去分析
  • 殘餘改變分數(Residualized change score):用迴歸控制前測後,取後測的殘差,更能排除前測水準的影響

這兩種做法各有適用情境,詳細說明請參考延伸閱讀。

延伸閱讀

如果有問題,歡迎留言。

更新記錄:2026-03 新建,整合常態假設判斷與方法選擇邏輯。

前後測統計方法選擇:常態假設怎麼看? Read More »

2023年徵文第二名(并列):我的第一篇SSCI by 孫名謠

暗戀的滋味就是:怕他知道,怕他不知道,怕他知道也假裝不知道。等待SSCI的消息也是如此:擔心來信,擔心不來信,擔心來信的結果是又被reject了。博士幾年,沒有經驗,滿是教訓:

1.知彼知己,百戰不殆——強烈的目標期刊意識

我在撰寫論文時,因為害怕發表困難,所以經常會想“要是這個期刊拒絕了我,那我還能馬上投稿到其他期刊”,我猜這也是很多新手的想法。

我曾經請教過一位博士期間以第一作者身份發表5篇SSCI的大神學姐,學姐反覆強調,一定要先選擇期刊,再開始著手寫論文

我們首先都會對自己想寫的主題有一個明確的定位,大概可以發表在什麼級別的期刊上,找到幾個潛在的期刊。然後翻看期刊的錄用要求,比如有的期刊會提出在今年希望收到“COVID-19期間學生自我調節學習”的文章,那麼如果我們有相關靈感就很適合。

最重要的是要閱讀潛在期刊最近發表的文章,我們就會知道這個期刊錄用論文的一些偏好,比如:收數據的地點、常用的分析方法、是否錄用某一類主題等。最後,我們根據目標期刊的具體要求開始撰寫,包括結構、格式等。《孫子兵法》強調“不戰而屈人之兵”,指的是好的軍事指揮家並不是要在戰場上贏得對手,而是要在戰前就有十足的把握。《孫子兵法》不是戰法,而是不戰之法。因此,我們的目的並不是被拒絕後馬上可以繼續投稿,而是盡我們所能增加被錄用的概率!

2.上兵伐謀——論題比方法重要

2023年徵文第二名(并列):我的第一篇SSCI by 孫名謠 Read More »

Scroll to Top