統計分析 - 研究生2.0

發了三篇頂刊後，我想談談 Profile Analysis 這條研究思路

Leave a Comment / 統計分析 / By researcher20

開場：為什麼我後來幾乎每個研究都會走到 Profile Analysis

我是做教育研究的。這幾年回頭看自己做過的題目，從自我調節學習（self-regulated learning, SRL）、motivation，到 learner differences，雖然表面上研究主題不一樣，但有一件事越來越明確：很多研究計畫走到最後，我都會回到 Profile Analysis 這條思路。

這裡說的自我調節學習，指的是學生能不能自己設定目標、監控進度、調整策略，讓學習不只是被動完成，而是主動管理。

不是因為它比較新，也不是因為它看起來比較厲害。更根本的原因是：教育本質上是人的問題。

教育研究當然可以用很多變項來解釋。你可以看動機高低、策略使用、學習成績、背景變項，也可以做相關、迴歸、ANOVA、SEM。這些方法都重要，也都常用。但如果你真的在研究「人」，你很快就會發現：單一變項本身固然重要，可是真正更有意思的，往往是不同變項之間怎麼組合在同一個人身上。

有些學生不是單純動機高或低，而是動機高但策略弱；有些人策略很多，但監控能力差；有些人表面上總分差不多，可是背後其實是完全不同的 learner type。這些差異，如果只看平均效果，常常會被壓平。

這也是為什麼我後來越來越常用 Profile Analysis。它不是拿來炫技的統計方法，而是一條比較貼近教育問題本質的研究思路。這篇文章想談的，就是：為什麼有些研究做到最後，不能只停在平均數或單一變項關係，而必須進一步去看 profile。

Variable-centered 和 person-centered，問的根本不是同一件事

大部分研究生比較熟悉的，是 variable-centered 的分析方式。

同一批資料,兩種觀點:Variable-centered 看平均趨勢 vs Person-centered 看 learner types

你問的是：

X 和 Y 有沒有關係？
哪個變項可以預測哪個結果？
組別之間平均差多少？

這是迴歸、ANOVA、SEM 這一整條分析邏輯最擅長處理的問題。它很好用，也完全合理。很多研究問題，本來就應該這樣問。

但 person-centered 的出發點不一樣。

它問的是：

這群人裡面，是不是本來就有不同類型？
這些類型之間，各自有什麼特徵組合？
不同類型的人，後續表現、結果、風險或需求是否不同？

所以這不是「同一個問題的進階版」，而是另一種問問題的方式。

舉例來說，如果你研究學生的自我調節學習（SRL）：

variable-centered 可能會問：

「SRL 總分能不能預測成績？」

person-centered 可能會問：

「學生是不是可以分成不同 SRL profile？而且不同 profile 的成績、動機、表現是否不同？」

這兩種做法都可以成立，但它們看到的東西不一樣。

為什麼教育研究特別需要這條思路

在很多教育研究裡，人不是平均數。

同樣平均分,不同 profile 組合(自主 / 策略 / 動機 / 投入四個維度)

有些學生不是單純高或低，而是「某些面向很強、某些面向很弱」。你如果把這些人全部壓成一個總分，再拿去做相關或迴歸，分析本身可能沒有錯，但你可能已經把最有價值的教育訊息壓掉了。

例如，你研究大學生的時間管理策略，量表有四個分量表：計畫制定、優先排序、執行監控、彈性調整。你把四個分量表加總，然後發現總分和 GPA 相關 .28。

這個分析不是錯，而是不夠。

因為同樣一個總分下面，可能有完全不同的學生：

有些人計畫制定很強，但彈性調整很差
有些人每個面向都中等，但非常穩定
有些人執行監控很強，可是前期規劃很弱

這些人最後在學習表現上可能走向不同結果，但如果你只看一個總分，你就看不見這些差異。

這也是我認為 Profile Analysis 在教育研究裡特別有價值的原因。教育現場真正關心的，往往不是「平均來說這群學生怎麼樣」，而是：這群學生裡面，有哪些不同型態，而不同型態的人需要什麼樣的理解與介入。

Profile Analysis 到底在做什麼

先講最白話的一句：

Profile Analysis 想做的，不是看單一變項的效果，而是辨識人群裡不同的組合型態。

這裡有幾個概念要先分清楚：

1.

…

發了三篇頂刊後，我想談談 Profile Analysis 這條研究思路 Read More »

Cronbach’s α 信度夠高就好嗎？你需要知道它告訴不了你什麼

Leave a Comment / 統計分析 / By researcher20

每學期批改研究計畫書，我都會看到同樣一句話：「本量表 Cronbach’s α = .87，信度良好。」

這句話沒有錯，但它遮蔽了很多問題。Cronbach’s α 是什麼？它能告訴你什麼？更重要的是，它告訴不了你什麼？這篇把這些事情說清楚。

Cronbach’s α 是什麼？

Cronbach’s α（1951）是量表內部一致性的常用估計指標，用來反映題項作為同一量表時的一致程度。直覺上的意義是：如果一組題目都在測同一個構念，它們應該彼此高度相關；α 就是這個相關程度的綜合指標。

α 的值介於 0 到 1 之間，常見的經驗法則參考門檻：

α ≥ .90：優秀
.80 ≤ α < .90：良好
.70 ≤ α < .80：可接受
α < .70：不足（有些領域接受 .65）

⚠️ 這些只是經驗法則，不是硬性標準。把 α 值對應到門檻後就結束信度討論，是很多論文的問題所在。

α 告訴不了你的三件事

一、α 高 ≠ 量表是單一構念

α 高只代表題項彼此相關。如果一個量表包含兩個彼此相關的構念（例如：認知投入和行為投入），α 仍然可能很高，但這不代表它是單一維度的量表。

我看過學生把一個雙因素量表的所有題目混在一起算整體 α，然後用整體分數做分析。這在結構上是有問題的——你應該分別報告各分量表的 α，而不是把所有題項混算。

⚠️ 審稿人最常抓的點：明明是多構面量表，作者卻只報整體 α，不分子量表報告。這幾乎是 reviewer 的標準 comment，值得提前防範。

二、α 受題項數影響

在其他條件相同的情況下，題項越多，α 越高。題目變多會拉高 α，但不代表量表內容更好、更精準。你可以把一個很差的量表通過無限增加題目來提高 α。

因此，α = .92 不能直接說「量表很好」，也要看題目數量、每題是否有獨立貢獻。

三、α 假設等負荷，在題項負荷差異大時可能偏估

Cronbach’s α 有一個數學假設：每個題項對潛在構念的「貢獻」是相等的（tau-equivalence）。如果題項的因素負荷量差異很大（現實中非常常見），α 在某些條件下可能高估或低估真實信度，因此不應被視為精確無誤的單一答案。

⚠️ α 高不代表有效度。 我看過學生把「信度良好」寫得像量表已被證明有效——這是兩件不同的事。信度高只說明題項彼此一致；量表是否真的在測你想測的構念（效度），需要另外的證據。

四、反向題沒處理會讓 α 崩掉

這不是 α 本身的限制，而是學生最常犯的操作錯誤。我看過不少學生拿到一個 α 很低的結果，以為是量表有問題，後來發現是反向題根本沒有先做逆向計分（reverse coding）。

凡是量表中有反向題（例如：「我不擅長時間管理」和「我能有效管理時間」放在同一個量表），在計算 α 之前，必須先把反向題的分數翻轉（5 改 1，4 改 2 等等）。跳過這步，α 一定偏低，甚至是負數。

更好的替代指標：McDonald’s ω

α 假設每題對構念貢獻相近；McDonald’s ω 則允許不同題項有不同的因素負荷量。因此，ω 在很多情況下比 α 更能補足內部一致性估計的限制，是近年方法學文獻更推薦的補充指標。

⚠️ ω 不是要取代 α，而是幫你更完整地說明量表信度。兩者都報，才是現在審稿人比較期待的做法。

ω 有兩種版本：

ω total（ω_t）：整體量表總分作為測量工具時的可靠性，適合單維度量表。
ω hierarchical（ω_h）：當量表有一般因素與群因素時，總分到底多大程度反映一般因素——適合多維度量表，回答「整體分數有多可靠」這個問題。

計算工具：R psych 套件（omega()）、JASP（信度分析模組）。

⚠️ ω 的估計通常建立在因素模型上，因此最好在有清楚測量模型或因素分析結果支持下報告。如果你的量表沒有做 EFA 或 CFA，ω 的計算本身也缺乏依據。許多期刊與審稿人會鼓勵同時報告 α 與 ω，作為更完整的信度說明。

α 太高是問題嗎？

有學生問我：「老師，α = .96 是不是很好？」

我說：「要看情況。」

α 非常高（.95）有時候反而是個警訊：

題項重複性太高：幾道題說的幾乎是同一件事，對量表沒有增加新資訊。
題項數量過多：用 20 題測一個概念，α 自然飆高。

信度不是越高越好，而是應該在「足夠高」的範圍內，同時確認每道題都有獨立貢獻：

item-total correlation 應 > .30（表示這題與整體量表有正向相關）
刪除某題後，若 α 明顯上升，表示該題可能與整體量表不一致，需要重新檢視

⚠️ 補充提醒：α 不是量表的固定屬性，同一份量表在不同樣本（例如：不同年齡層、不同文化背景）可能得到不同的 α 值。不要把文獻上的 α 直接當作自己研究的品質背書，而要根據自己資料實際計算並報告。

如何在論文裡報告？

完整的信度報告應包含：

各分量表各自報 α，不要只報整體（多維度量表尤其重要）
題項數：α = .87（8 題）
ω 值（若有因素分析基礎）：α = .87，ω = .89
item-total correlation：審稿人若問，你要能提供

範例寫法：「本研究採用 XX 量表，共 3 個分量表。各分量表的 Cronbach’s α 分別為：認知投入 .83（5 題），行為投入 .79（4 題），情感投入 .86（5 題），均達可接受標準（α ≥ .70）。McDonald’s ω 分別為 .85、.81、.87，與 α 值相近，顯示各分量表符合基本的等負荷假設。」

如果有問題，歡迎留言。

更新記錄：2026-03 首次發布。

…

Cronbach’s α 信度夠高就好嗎？你需要知道它告訴不了你什麼 Read More »

缺失值怎麼處理？從 MCAR、MAR 到多重插補，一篇說清楚

Leave a Comment / 統計分析 / By researcher20

學生交來初稿，我翻到方法段，看到一句話：「本研究刪除含有遺漏值的樣本，最終有效樣本為 N = 218。」

我問：「原始問卷收了多少份？」

他說：「251 份。」

我說：「你刪掉了 33 個人，占將近 13%。你有沒有想過，這 33 個人為什麼沒有填完？」

他沉默了一下。這個問題，很多學生沒有想過。

缺失值不是「髒資料」，是資訊

缺失值（missing data）在量化研究裡幾乎無可避免。問卷有人跳題、有人漏填、有人中途離開；追蹤研究有人失聯。問題不是「資料有缺失就不好」，而是：這些缺失是怎麼產生的？

Rubin（1976）把缺失值的機制分成三類，這個分類直接決定你應該用什麼方法處理：

MCAR（Missing Completely At Random，完全隨機缺失）
缺失與任何變項的值完全無關。例如：問卷印刷有個版本漏印了一題，哪些人拿到這份問卷是隨機的。
這是最理想的情況，但現實中很少見。
MAR（Missing At Random，隨機缺失）
缺失與其他已觀察到的變項有關，但與遺漏的數值本身無關。例如：女性比男性更容易在薪資題跳過，但控制性別後，缺失就不再系統性地和薪資高低有關。
這是最常見的假設，多重插補和 FIML 都以 MAR 為前提。
MNAR（Missing Not At Random，非隨機缺失）
缺失和遺漏的數值本身有關。例如：憂鬱分數越高的人越可能跳過憂鬱相關題項。
這是最棘手的情況，標準統計方法無法完全解決，需要特殊模型或明確說明限制。

Listwise Deletion 的問題

Listwise deletion（刪除含有缺失值的整筆資料）是最常用的做法，SPSS 的預設值也是這個。它只在 MCAR 的情況下不會造成偏誤——因為只有在缺失完全隨機時，刪掉這些人才不會讓留下來的樣本變得「特別」。

如果缺失是 MAR 或 MNAR，listwise deletion 會：

造成樣本偏誤：留下來的樣本不再能代表原始母群
損失統計力：樣本數減少，估計誤差增大
低估標準誤：某些情況下讓結果看起來比實際更顯著

⚠️ 容易犯錯的地方：學生在方法段只寫「刪除含有遺漏值的樣本」，但沒有說明缺失率、沒有檢驗缺失機制、也沒有討論這個做法對結論可能的影響。審稿人看到這裡，會直接問：你怎麼知道缺失是 MCAR？

現代處理方式：MI 和 FIML

當前方法學文獻推薦的兩種主流做法是多重插補（Multiple Imputation, MI）和完整資訊最大概似法（Full Information Maximum Likelihood, FIML）。兩者都在 MAR 假設下比 listwise deletion 表現更好。

多重插補（MI）

核心邏輯：不是用一個值去填補缺失，而是建立多個完整資料集（常見做法是 20 次以上，缺失比例較高時可增加插補次數），每次填補都反映填補的不確定性，最後合併分析結果。

操作工具：SPSS（Analyze → Multiple Imputation）、R mice 套件、Stata mi impute。

適合情況：缺失值分散在多個變項；想用不同軟體分開做插補和分析。

完整資訊最大概似法（FIML）

在 SEM 或 CFA 模型中，FIML 讓模型在估計時直接使用每個受試者提供的所有有效資訊，不需要預先填補缺失值。FIML 通常適用於以模型為基礎的分析（如 CFA、SEM、路徑分析），不是所有統計程序都能直接套用。

操作工具：AMOS（預設支援）、R lavaan（missing = "fiml"）、Mplus（DATA: LISTWISE = OFF）。

適合情況：跑 CFA 或 SEM，缺失值主要在觀察變項上。

⚠️ 容易犯錯的地方（一）：學生以為 FIML「自動處理了缺失值所以不用報告」。其實 FIML 也需要在方法段說明：使用 FIML 估計，假設缺失機制為 MAR。

⚠️ 容易犯錯的地方（二）：用 MI 時，插補模型包含的變項不夠完整。MI 的插補品質取決於插補模型有多少有效預測變項——把所有分析相關變項都納入插補模型，結果才可靠。

怎麼檢驗缺失機制？

在方法段說明缺失值處理之前，應該先報告你如何判斷缺失機制。

Little’s MCAR test：SPSS 有內建（Analyze → Missing Value Analysis → Little’s MCAR test）。若 p > .05，表示沒有足夠證據拒絕 MCAR 假設，常被視為與 MCAR 相容——但這不等於「確認是 MCAR」，統計檢驗只能提供線索，機制判斷仍需結合理論與資料情境。

輔助變項分析：建立「是否缺失」的虛擬變項，與其他變項做 t-test 或卡方檢定。如果缺失組和完整組在某些變項上有顯著差異，就有理由懷疑不是 MCAR。

⚠️ 容易犯錯的地方：MNAR 無法用標準統計方法驗證（因為你沒有缺失的數值）。遇到可能是 MNAR 的情況，誠實在討論段說明是更合適的做法，而不是假裝問題不存在。

如何在論文裡報告？

缺失值的報告應包含：

缺失率：整體缺失率（如：缺失佔全部資料格的 X%）；各關鍵變項的缺失情況
缺失機制：如何判斷（Little’s MCAR test 結果，或輔助分析結論）
處理方式：用了哪種方法（MI / FIML / listwise）以及選擇理由
MI 的細節（若使用）：插補次數、插補模型包含哪些變項、軟體

範例寫法：「本研究資料缺失率為 4.3%，各變項缺失率均低於 10%。Little’s MCAR test 結果不顯著（χ² = 12.3, df = 14, p = .58），初步支持缺失隨機假設。採用多重插補法（R mice 套件，M = 20 次），插補模型包含所有分析變項。」

缺失率多高就不能用？

沒有絕對的門檻。常見的粗略參考是：

5% 以下：通常影響不大，listwise 或 MI 均可，但應說明。
5%–20%：建議用 MI 或 FIML，並報告缺失機制檢驗。
20% 以上：需要非常謹慎，MI 仍可嘗試，但解釋要保守，且需討論對結論的潛在影響。

這些只是經驗參考，不是硬性標準。更重要的判斷仍是：缺失是否系統性地影響估計結果？ 也需要交代缺失集中在哪些變項——是 outcome 缺失多？還是某個背景變項？是否集中在特定群體？ 5% 的 MNAR 可能比 15% 的 MCAR 更嚴重。

如果有問題，歡迎留言。

更新記錄：2026-03 首次發布。

…

缺失值怎麼處理？從 MCAR、MAR 到多重插補，一篇說清楚 Read More »

測量不變性（Measurement Invariance）：跨組比較前必做的檢定

Leave a Comment / 統計分析 / By researcher20

學生拿著跨組比較的結果來找我，說：「老師，我比較了男生和女生的 SEM 路徑係數，發現差異很大。」

我問了一個問題：「你有沒有先確認這個量表在男生和女生身上測的是同一個東西？」

他愣了一下。

這就是測量不變性（Measurement Invariance）要解決的問題——在跨組比較之前，你必須先驗證你的測量工具在不同群體裡的意義是否相同。如果沒有做這個檢驗，你的跨組比較在方法上是站不住腳的。

什麼是測量不變性？

假設你用一個動機量表同時測量男生和女生，然後比較兩組的動機分數差異。這個比較有一個前提：這個量表在男生和女生身上「測的是同一個東西」，而且測的方式相同。

如果量表裡的某道題，男生理解的方式和女生理解的方式不同，那你比較出來的「差異」，到底是真實的群體差異，還是量表本身的測量偏誤？你分不清楚。

測量不變性（Measurement Invariance），又稱測量等同性，就是用統計方式驗證：這個量表的因素結構、因素負荷量、截距，在不同群體之間是否相等。只有通過這個驗證，你的跨組比較才有意義。

測量不變性的四個層次

測量不變性四層次：Configural / Metric / Scalar / Strict — 測量不變性四層次——哪個層次才夠用？（需依序通過每一層）

測量不變性的驗證分四個層次，由寬鬆到嚴格逐步限制，且每一層都建立在前一層成立之上：

形態不變性（Configural Invariance）
驗證：兩組的因素結構相同——哪些題目屬於哪個因素，模式一致。
這是最基本的要求，也是後續所有層次的基礎。
使用時機：確認兩組對量表的基本解讀架構相同，作為後續比較的前提。
測量不變性（Metric Invariance）
在 Configural 基礎上，限制兩組的因素負荷量相等。
意義：題目和潛在因素之間的關係強度在兩組相同。
使用時機：要比較兩組的相關係數或迴歸路徑係數。
⚠️ 達到 Metric 可以比較變項之間的關係，但尚不宜直接比較群體平均數。
截距不變性（Scalar Invariance）
在 Metric 基礎上，進一步限制兩組的題項截距相等。
意義：相同的潛在因素分數，對應的觀察值在兩組相同。
使用時機：要比較兩組的潛在平均數差異——這是最常見的跨組比較目標。
嚴格不變性（Strict Invariance）
在 Scalar 基礎上，進一步限制殘差變異量相等。
意義：測量誤差在兩組也相同。
社會科學研究通常不要求這個層次——達到 Scalar 即可支持多數跨組比較。

如何進行測量不變性檢驗？

測量不變性的驗證用多群組 CFA（Multi-group CFA）來進行，逐步加入約束條件並比較模型配適度。

步驟一：Configural Model（基準模型）
讓兩組各自自由估計所有參數，只限制因素結構相同，作為配適度的基準。

步驟二：Metric Model（限制負荷量相等）
限制兩組因素負荷量相等，比較與 Configural 的配適度變化。

步驟三：Scalar Model（限制截距相等）
進一步限制截距相等，再次比較配適度變化。

判斷標準（ΔCFI / ΔRMSEA 為主，Δχ² 為輔）：

常用判準：ΔCFI ≤ .010，且 ΔRMSEA ≤ .015
不建議只依賴 Δχ²——Δχ² 對樣本數敏感，大樣本時幾乎必然顯著，容易誤判。

工具：AMOS（多群組分析）、R semTools 套件（measurementInvariance()）、Mplus（MODEL = CONFIGURAL METRIC SCALAR）。

容易犯錯的地方

一、跨組比較前完全沒有做這個檢驗

最常見的問題。很多論文的方法段描述了 SEM 配適度，然後直接跳到「男女比較結果」，完全沒有提測量不變性。現在審稿人愈來愈熟悉這個議題，很容易被抓。

我在審稿時看到這種情況，都會要求作者補做不變性檢驗，或者說明為什麼可以假設不變性成立。

二、只用 Δχ² 判斷

Δχ² 的問題是，樣本大（N > 300）時，任何微小差異都會顯著，讓你以為不變性不成立。

⚠️ 學生常見的錯誤：看到 Δχ² 顯著就說「測量不變性不成立」然後放棄比較。其實根據 ΔCFI 可能完全符合不變性標準。現代標準是 ΔCFI 和 ΔRMSEA 為主，Δχ² 報告但不作唯一依據。

三、部分不變性（Partial Invariance）的處理不對

如果 Metric 成立，但 Scalar 不完全成立（只有部分截距相等），叫做部分截距不變性（Partial Scalar Invariance）。

這種情況下仍然可以做有限度的跨組比較，但需要：

確認哪些題項的截距不等（用 MI 找出），並說明原因
以不變的題項作為錨點（anchor）
在限制段說明部分不變性對結論的影響

⚠️ 學生常見的錯誤：發現兩個截距不等就放棄所有跨組比較。部分不變性不代表什麼都不能比，只是比較範圍和解釋要更謹慎。

四、不知道怎麼報告

測量不變性的報告要用表格呈現四個模型的配適度比較，包含：每個層次的 CFI、RMSEA、SRMR、ΔCFI、ΔRMSEA，以及哪個層次成立的結論。

不變性不成立怎麼辦？

如果連 Metric Invariance 都不成立，代表這個量表在兩個群體測的是不同的東西：

先找出哪些題項的負荷量不等（MI 定位），看看是否有文化或語言差異
考慮量表是否需要修改，或分組建立不同測量模型
在論文裡誠實說明：量表在兩個群體有不同的心理計量特性，跨組比較有限制

這不是失敗。很多跨文化研究正是靠測量不變性檢驗，發現了量表在不同群體之間的心理計量差異，進而深化對構念的理解。

如果有問題，歡迎留言。

更新記錄：2026-03 首次發布。

…

測量不變性（Measurement Invariance）：跨組比較前必做的檢定 Read More »

Bootstrap 中介效果：用 PROCESS macro 跑比 Baron & Kenny 更準

Leave a Comment / 統計分析 / By researcher20

我指導過不少論文，有一個問題學生最常問：「老師，我用 Baron & Kenny 四步驟做中介分析，夠嗎？」

我的回答通常是：「在教育、心理、管理等領域，bootstrap 間接效果檢驗已經非常普遍，很多期刊和審稿人會期待看到。如果你還只用四步驟，很可能被要求補做。」

這篇從為什麼要改、怎麼跑、怎麼報告，一步一步說清楚。

先釐清一個學生最常有的誤解：中介分析不是在問「X 對 Y 還有沒有影響」，而是在問「X 是否透過 M 影響 Y」。 這個方向搞清楚，後面的邏輯才會通。

Baron & Kenny 四步驟，問題出在哪？

Baron & Kenny（1986）的四步驟中介檢驗，被引用超過 40,000 次，是教科書裡最常見的方法：

X → Y 顯著（總效果 c path）
X → M 顯著（a path）
M → Y 顯著（b path，控制 X）
加入 M 後，X → Y 的效果減小或不顯著（中介成立）

這個方法的根本限制是：它用逐步顯著性來推論中介，而不是直接測試間接效果（indirect effect = a × b）的大小。

問題在於：a 顯著、b 顯著，不代表 a × b 顯著。反過來，a 或 b 個別不顯著，但 a × b 可能仍然顯著。這不是邏輯問題，是統計問題。

Sobel test 試圖直接測試 a × b，但它假設間接效果的抽樣分佈是常態的。而現實中，間接效果的分配往往是偏斜的（skewed），因此 Sobel test 在小樣本或中等樣本下容易過於保守、統計力不足，導致本來存在的間接效果被漏掉（Type II error）。

⚠️ 容易犯錯的地方：很多學生看到「X → Y 不顯著」就直接放棄做中介分析。但現代中介分析的觀點是：total effect 不顯著，仍然可能存在顯著的間接效果。X 可能透過 M 正向影響 Y，同時又有另一條路徑直接負向影響 Y，兩者抵消讓總效果看起來不顯著，但中介機制確實存在。

Bootstrap 的邏輯是什麼？

Bootstrap 不依賴間接效果分配是常態的假設，而是直接從你的資料出發，用重複抽樣建立信賴區間。邏輯如下：

從原始樣本中，重複有放回地隨機抽樣（通常 5000 次）
每一次都計算間接效果 a × b
把 5000 個 a × b 的值排序，取第 2.5 百分位和第 97.5 百分位，作為 95% 信賴區間（BootCI）
如果 95% BootCI 不包含 0 → 間接效果顯著

相較於 Sobel test，bootstrap 不依賴間接效果常態分配假設，更適合處理偏斜的間接效果分配，通常也有較佳的統計力。方法學文獻普遍建議以 bootstrap 信賴區間作為間接效果的主要檢驗方式，許多期刊也明確期待看到這種做法。

⚠️ 一個細節：PROCESS macro 提供兩種 bootstrap CI：percentile CI（直接取百分位）和 bias-corrected and accelerated CI（BCa，修正偏誤）。一般情況下 percentile CI 已經夠用，但如果間接效果分配明顯偏斜，BCa 更準確。PROCESS 預設是 percentile，若要改成 BCa 可在選項中設定。在論文裡報告時，說明你用的是哪種。

用 PROCESS macro 跑 Bootstrap 中介

Hayes 的 PROCESS macro 是目前最廣泛使用的工具，免費，支援 SPSS 和 SAS。

安裝：到 processmacro.org…

Bootstrap 中介效果：用 PROCESS macro 跑比 Baron & Kenny 更準 Read More »