SEM 實作路線圖/入口橋樑文

SEM 實作路線圖/入口橋樑文

為什麼很多人一學 SEM 就迷路?

很多研究生學 SEM(結構方程模型)最大的坑,就是一上來就打開 Amos 或 Mplus,然後被滿畫面的圓圈、方塊和滿天飛的數字淹沒。

他們會急著問:「CFI 要多少才算好?」「RMSEA 超過 0.08 怎麼辦?」「為什麼我的模型跑不出來?」

但這些問題背後,往往是更根本的困惑:我到底現在卡在哪裡?

不要試圖一次「學完」SEM。SEM 是一個龐大的工具箱,你不需要每個工具都會用。在卡關焦慮之前,你應該先確定自己現在處於學習地圖的哪一個位置。

這篇文章是一份給新手的 SEM 實作路線圖,幫你判斷自己目前卡在哪裡、下一步應該先學什麼。

第一關:釐清心法——SEM ≠ 因果

最常見的誤區:把路徑圖當成因果證明

初學者常有一個錯覺:只要我在 Amos 或 Mplus 裡畫了一個單向箭頭,跑出來顯著,我就「證明」了因果關係。

錯了。

箭頭是你畫的,理論是你定的,軟體只負責告訴你「這組資料跟你的理論架構配不配」。

如果你的研究設計本身不是實驗操弄、不是縱貫性資料(追蹤同一群人在不同時間點),SEM 無法無中生有地為你創造出因果。它只能在「你的理論是對的」這個前提下,檢驗資料是否支持這套架構。

SEM 因果對照圖
SEM ≠ 因果:路徑圖不代表因果證明

心法建議

在開啟任何 SEM 軟體之前,先把你的理論邏輯理清楚:

  • 為什麼 A 會影響 B?
  • 中間的機制是什麼?
  • 有沒有替代解釋?

軟體只是檢驗工具,不能幫你想清楚研究問題。

第二關:測量模型——先看 CFA,再看路徑

常見錯誤:急著看假設顯不顯著

很多研究生把資料丟進 SEM 後,第一個動作是看「假設 H1 有沒有顯著」。這是致命的順序錯誤。

在檢驗任何結構路徑之前,你必須先確認你的測量模型是穩固的。

測量模型的關鍵指標

CFA(驗證性因素分析)是 SEM 的第一步。你必須確認:

  • CFI(比較適配指數):通常建議 0.90,愈高愈好
  • RMSEA(近似誤差均方根):通常建議 < 0.08,< 0.05 更佳
  • SRMR:通常建議 < 0.08

如果你的 CFI 連 0.9 都不到,RMSEA 飆高,這代表你的「測量工具」本身就有問題——可能是題項設計不良、信度不足,或因素結構不如預期。

這時候後面的路徑係數再怎麼顯著,都是建立在沙地上的樓閣。測量都測不準,後面的推論毫無意義。

進階閱讀

如果你對 CFA 還不熟悉,建議先看完這篇入門:

第三關:結構模型與複雜路徑

測量過關後,才進入結構模型

當你的 CFA 配適度及格、組合信度與變異數萃取量都達標,才可以進到正式的「結構模型」階段,檢驗你的研究假設。

這裡你會遇到各種複雜的路徑問題:

  • 單純的相關或迴歸路徑?
  • 中介效果(X 透過 M 影響 Y)?
  • 調節效果(W 改變 X→Y 的強弱)?
  • 還是更複雜的「調節中介(Moderated Mediation)」?

SEM 一次做,還是 PROCESS 分開做?

這是許多研究生的選擇難題:

用 SEM(Amos/Mplus/R lavaan):

  • 優點:可以一次估計整個模型、處理潛在變數、處理多個中介或調節的組合
  • 缺點:學習曲線較陡、軟體操作較複雜

用 PROCESS macro(在 SPSS 中):

  • 優點:入門門檻低、 Hayes 的文件與範本非常完整
  • 缺點:只能處理觀察變數(總分)、複雜模型需要分段跑

判斷原則

  • 如果你的變數是「總分」(而非潛在因素),且模型相對簡單 → PROCESS 可能更快速
  • 如果你的模型有潛在變數、多個中介鏈、或需要同時估計測量與結構 → SEM 更全面

關於 PROCESS 的使用時機,可以參考這篇:

常見卡點分類:你現在卡在哪?

根據過去指導學生的經驗,學習 SEM 的人通常會卡在以下四種情境:

卡點一:把工具當答案

症狀:「我學會了 Amos 怎麼按按鈕,但我不知道我的研究問題適不適合用 SEM。」

解方:回到研究問題。SEM 適合檢驗「理論架構」,但不適合探索「我不知道變數之間有什麼關係」。探索性分析請用 EFA、相關分析或質化研究。

卡點二:只看 fit 不看理論

症狀:「我的 CFI 0.95,RMSEA 0.06,所以可以發表了?」

解方:Fit indices 只是「必要條件」而非「充分條件」。好的配適度只代表「你的模型架構跟資料不矛盾」,不代表你的理論是對的。還是要回到文獻、邏輯、與實務意義來解釋。

卡點三:把路徑圖誤認為因果證明

症狀:「我的模型顯著,所以我證明了 A 導致 B。」

解方:重申一次:SEM 是檢驗「你的理論架構是否與資料一致」,而不是發明因果。因果推論需要研究設計的配合(實驗、縱貫、工具變數等)。即使是縱貫 SEM,也只能提供較強的證據,而非因果的充分條件。

卡點四:太早追進階模型

症狀:「我想直接跑調節中介的完整 SEM,但我連基本的 CFA 都還不確定自己做對沒有。」

解方:複雜模型是建立在簡單模型的基礎上。如果你的基本中介都跑不穩,貿然進入調節中介只會讓錯誤更難排查。先確認你能獨立完成簡單中介或單純路徑,再考慮進階模型。

延伸閱讀

Shadish, W.…

SEM 實作路線圖/入口橋樑文 Read More »

Literature Review 怎麼寫才不爛?避開摘要流水帳的實作流程 featured thumbnail

Literature Review 怎麼寫才不爛?避開摘要流水帳的實作流程

寫 thesis proposal 或論文第二章時,最常被教授打槍的問題是什麼?

不是文獻讀得不夠多,是讀完之後寫成了高級摘要集。A 學者說了什麼、B 學者發現了什麼、C 學者的結論是⋯⋯寫到最後,讀者只知道你讀了 30 篇 paper,但看不出這 30 篇跟你的研究有什麼關係。

這篇的目標很簡單:給你一個可執行的 workflow,從「開始搜尋」到「寫出段落」,避免把 literature review 寫成逐篇摘要。

六步流程:從搜尋到段落

文獻回顧六步流程圖
文獻回顧六步流程,從搜尋、快讀、整合對照表,到抽取主題、找出缺口,再用 MEAL 架構寫成段落。

Step 1:搜尋與初步篩選

先承認一件事:你不可能讀完所有相關文獻。重點是建立一個「夠用且可管理」的文獻池。

實際操作

  • 從 2-3 篇該領域的權威 review article 或 meta-analysis 入手,抓出核心概念與關鍵字
  • 用關鍵字在 Scopus / Web of Science / Google Scholar 搜尋,設定時間範圍(建議近 10-15 年為主,標誌性經典除外)
  • 第一輪篩選看 title + abstract,只保留「可能相關」的,不要糾結當下判斷是否準確
  • 目標:建立一個 30-50 篇的「待讀清單」,之後會再縮減

常見錯誤:搜尋階段就過度篩選,或糾結「這篇到底要不要讀」而卡住。先抓進來,step 2 再判斷。

Step 2:快讀與分類標記

這階段不要逐字讀。用「快讀 + 標記」建立文獻的初步定位。

實際操作

  • 每篇控制在 15-20 分鐘:讀 abstract → 掃 introduction 最後一段(研究目的)→ conclusion
  • 在 reference manager(Zotero、EndNote、Mendeley)裡加標籤:按主題(#認知負荷#遊戲化學習)、按方法(#實驗法#質性訪談)、按立場(#支持 X 理論#質疑 X 理論
  • 同時記錄:這篇的研究對象、主要發現、方法限制(用簡短 keyword,不要完整摘要)

重點:這階段的筆記是「給搜尋用的」,不是給寫作用的。目的是讓你之後能快速找到「有哪些文獻講了這個主題」。

Step 3:建立 Synthesis Matrix

這是從「摘要模式」切換到「綜合模式」的關鍵步驟。Synthesis Matrix 是一張橫向比較表,讓你看到「關於某個概念,多篇文獻各自說了什麼」。

作者 (年份) 研究對象 核心發現:X → Y 的關係 方法限制 與本研究的關聯
Chen (2020) 大學生 正向但微弱 (β = .12) 橫斷式設計 需要縱貫驗證
Wang (2021) 高中生 調節效果:動機為 moderator 樣本僅台北 可擴展到南部
Lin (2022) 在職進修 無顯著效果 自我回報量表 可能測量誤差

為什麼不用傳統摘要?傳統摘要是你對著單篇文獻寫「這篇說了什麼」;Matrix 是讓你橫向看「這幾篇對同一個議題有什麼不同說法」。後者才能幫你找 pattern。

工具建議:Excel、Google Sheets、Notion database 都可以。重點是「能橫向比較」,不是用什麼軟體。

Step 4:從 Matrix 抽出 Themes

讀完 Matrix,下一步是問:這些文獻能歸成幾個主題?不是問「有哪些作者」,是問「有哪些論述脈絡」。

抽 theme 的三個判準

  1. 共識區(Consensus):哪些觀點是多方支持的?這構成你文獻回顧的「背景共識」段落。
  2. 爭議區(Controversy):哪些議題有對立觀點或矛盾結果?這是文獻回顧的「對話核心」,也是你展現批判性思考的地方。
  3. 缺口區(Gap):哪些重要問題還沒被充分回答?這直接導向你的研究問題。

實例:不是「A、B、C 都研究了認知負荷」,而是「關於認知負荷的測量,目前存在兩派:客觀生理指標派 vs.…

Literature Review 怎麼寫才不爛?避開摘要流水帳的實作流程 Read More »

「老師,我到底要訪談幾個人?」:打破理論飽和(Theoretical Saturation)的迷思

「老師,我到底要訪談幾個人?」:打破理論飽和(Theoretical Saturation)的迷思

這是我在指導研究生時,最常被問到的問題之一:「老師,我這篇質性研究到底要收多少樣本才夠?十個可以嗎?還是要二十個?」很多同學以為這是一個數字遊戲,好像達到了某個神聖的數字,研究就可以順利過關。

每次遇到這種問題,我都會反問他們一個核心概念:「你達到『理論飽和』(Theoretical Saturation)了嗎?」

這句話一出,很多學生的表情就會變得有些迷惘。他們可能在研究方法的課堂上聽過這個詞,甚至在自己的論文計畫書裡寫過,但如果要具體解釋它是什麼,以及如何判斷,往往說不清楚。

今天,我們就來好好談談「理論飽和」,打破關於質性研究樣本數的常見迷思,告訴你如何判斷你的資料到底「夠了沒」。

什麼是理論飽和?它不是一個數字,是一個狀態

「理論飽和」這個概念,最早源自 Glaser 和 Strauss(1967)提出的紮根理論(Grounded Theory)。簡單來說,理論飽和指的是:當你繼續收集新的資料、進行新的訪談時,已經無法再產生新的洞見、新的主題或新的類別,且現有理論框架的屬性與維度都已經被充分發展時,你的資料就達到了飽和。

把這件事想像成你在拼一幅拼圖。一開始,你拿到很多邊緣的碎片,慢慢拼湊出一個輪廓;接著,你開始填補中間的區塊,圖案越來越清晰。到了一個時間點,你再拿到新的拼圖碎片,你發現它們只是重複現有的圖案,對整幅畫的理解沒有任何新的貢獻。這個時候,你的「拼圖」就飽和了。

所以,理論飽和不是看你訪談了「多少人」,而是看你「問出了什麼」。這是一種對資料深度的評估,而不是對數量的執著。

關於理論飽和的常見誤解

在實務上,許多研究者對理論飽和有著錯誤的期待與操作方式。以下是幾個最常見的盲點:

誤解一:把「資料飽和」等同於「理論飽和」

很多學生會說:「老師,我訪談到第十二個人,他們講的東西都跟前面的人一樣了,所以我達到理論飽和了!」

這是一個很常見的盲點。受訪者說了相同的話,叫做「資料飽和」(Data Saturation)或是「資訊冗餘」(Informational Redundancy)。但「理論飽和」要求的是更高層次的分析:你是否已經將這些資料提升到了概念的層次?你的理論模型是否已經足夠厚實,能夠解釋這些現象?如果你的訪談問題本來就很淺薄,那當然很快就會聽到重複的答案,但這並不代表你的理論已經完整了。

誤解二:先預設一個樣本數,然後宣稱飽和

有些學生會在計畫書裡寫:「本研究預計訪談 15 人,以達到理論飽和。」這在邏輯上是不通的。理論飽和是「做出來」的,不是「預測出來」的。你無法在收集資料之前,就知道何時會再也找不到新的概念。真正的理論飽和,是透過資料收集與資料分析的「來回交替」(Iterative Process)逐步確認的。

誤解三:把飽和當作偷懶的藉口

「老師,我訪談五個人就飽和了,可以不用再做了吧?」

如果你的研究對象非常同質,且研究問題極度聚焦,五個人或許有可能。但在多數情況下,過早宣稱飽和,往往是因為研究者缺乏理論敏感度(Theoretical Sensitivity),看不出資料中潛藏的細微差異,或是因為不想再辛苦找受訪者了。記住,審查委員(Reviewers)都是身經百戰的,你是不是真的飽和,他們從你的分析深度一眼就看穿了。

實務建議:如何判斷並證明你已經達到了理論飽和?

了解了迷思之後,身為研究生,你該如何在論文中具體展現你已經達到了理論飽和?這裡有幾個務實的建議:

1.

「老師,我到底要訪談幾個人?」:打破理論飽和(Theoretical Saturation)的迷思 Read More »

Cronbach’s α 不是萬用的:二元計分該用 KR-20

前陣子在幫一本期刊審稿時,又看到了一個非常典型、許多研究生都會踩到的統計地雷。

這篇研究用了一份自編的知識測驗量表,所有的題目都是「對/錯」的二元計分(0或1)。然而,在信度分析的部分,作者洋洋灑灑地報出了「Cronbach’s α = .85」。

當下我的第一個反應是:數值看起來不錯,但指標用錯了。

如果你也是正在處理問卷數據的碩博士生,或者你設計的量表包含是非題、檢核表、選擇題(答對給 1 分、答錯給 0 分),這篇文章就是為你寫的。我們來聊聊為什麼在這種情況下,你不該報 Cronbach’s α,而應該改用 KR-20 (Kuder-Richardson Formula 20)

為什麼 0/1 計分不能直接用 Cronbach’s α?

在社會科學研究中,Cronbach’s α 幾乎成了內部一致性信度(internal consistency reliability)的代名詞。許多同學跑統計時,不管三七二十一,直接把所有題目丟進軟體裡算 α 值。就像我在之前文章《Cronbach’s α 信度夠高就好嗎?》裡提過的,信度分析不能只看數字高低,還要看你的資料性質。

Cronbach’s α 的設計初衷,是針對「連續變項」或至少是「多點量表的類別變項」(例如典型的 5 點或 7 點李克特量表,Likert scale)。它考慮了題目得分的變異數。

但是,當你的題目是 0 和 1 的二元計分(dichotomous data)時,資料本身是不連續的。這時候,計算連續變異數的數學邏輯就不完全適用了。強行用 SPSS 或其他軟體跑 Cronbach’s α,雖然軟體還是會吐出一個數字給你,但這在統計學理上是不夠嚴謹的。

KR-20 是什麼?它和 Cronbach’s α 有什麼關係?

這時候,我們需要搬出 KR-20

KR-20(Kuder-Richardson Formula 20)是專門用來計算「二元計分」題目內部一致性的信度係數。有趣的是,從數學推導來看,KR-20 其實是 Cronbach’s α 在二元資料下的特例

如果你把 0/1 的資料丟進公式去算,得出來的 KR-20 數值,往往會跟軟體硬算出來的 Cronbach’s α 數值一模一樣,或者極度接近。

你可能會問:「既然數字一樣,那報 Cronbach’s α 錯在哪裡?」

問題出在「專業度」與「對資料性質的理解」。當你在論文裡寫下「本研究以 KR-20 檢驗二元計分題目的信度」時,你是在向審稿人(或口試委員)傳遞一個明確的訊息:我清楚我的資料是類別變項,而且我知道針對這類資料該用什麼統計方法。

相反地,如果你報 Cronbach’s α,審稿人心裡可能會打個問號:「這個作者是不是只會按軟體預設的按鈕,連資料尺度都沒搞清楚?」在競爭激烈的學術期刊審查中,這種小細節往往會影響審稿人對你整體研究嚴謹度的第一印象。

實務上的建議與做法

那麼,如果你現在的手邊正好有這類資料,該怎麼辦呢?我給碩博士生們三個實務上的建議:

第一,檢視你的量表計分方式。
在跑信度之前,先確認每一題的計分尺度。如果是 1-5 分的同意度量表,放心用 Cronbach’s α。如果是對錯題、有/無、是/否這種只有 0 和 1 的計分,請把 KR-20 寫進你的分析計畫裡。

第二,不要被軟體的介面綁架。
很多同學會說:「可是 SPSS 的 Reliability Analysis 預設只有 Alpha 可以選啊!」沒錯,在許多軟體中,如果你硬跑 Alpha,它跑出來的數字其實就是 KR-20 的等效值。但在寫作時,你必須在文字描述和表格標題中,將其正確標示為 KR-20。這是寫作上的嚴謹,與軟體介面無關。

第三,混合題型的量表要分開處理。
這是我最常看到的另一個誤區:同一份問卷裡,前半部是 1-5 分的態度題,後半部是 0/1 的知識題,然後作者把它們全部混在一起跑一個總信度。這在統計上是災難。你應該把李克特量表的部分獨立跑 Cronbach’s α,二元計分的部分獨立跑 KR-20,然後分別在報告中呈現。

結語:魔鬼藏在細節裡

學術研究的價值,很大一部分建立在方法論的嚴謹度上。信度分析只是資料處理的第一步,但這一步走得穩不穩,往往決定了後續分析的基礎。

下次遇到 0/1 計分的量表,別再習慣性地敲下 Cronbach’s α 的按鈕了。換成 KR-20,讓你的論文在細節處展現出真正的學術專業度。這不僅能幫你避開像我這種挑剔的審稿人的法眼,更是對你自己研究資料的一種尊重。

相關文章

References

Cronbach, L.…

Cronbach’s α 不是萬用的:二元計分該用 KR-20 Read More »

四個人的訪談也能發 SSCI?質性研究樣本數的真正邏輯

很多研究生以為質性研究「找越多人越好」。這篇文章告訴你,數字不是重點,設計才是。


質性研究五個關鍵設計:Purposeful Sampling、訪談深度、Data Triangulation、理論框架驅動分析、Trustworthiness

你可能聽過這個問題

「老師,我的論文只訪談了六個人,這樣夠嗎?」

這是我在指導學生時最常被問到的問題之一。通常伴隨著一臉焦慮。

我的回答永遠是:「先告訴我你的研究問題是什麼。」

因為「幾個人夠」這個問題,根本問錯了方向。

最近我讀到一篇論文,是今年剛發表在 System(SSCI,Applied Linguistics)的文章。研究者 Li 和 Ding 只訪談了 4 位參與者——四位在抖音拍英文 vlog 的中國大學生——卻通過了嚴格的同儕審查,發表在頂尖期刊。

我用這篇論文作為案例,帶你看懂質性研究「人數邏輯」的真正本質。


這篇論文做了什麼

Li & Ding (2026) 研究的是:中國大學生在抖音上拍英文 vlog,這個行為為他們的英語學習帶來了什麼?背後有什麼機制在運作?

他們的理論框架是生態學視角(ecological perspective),聚焦在 affordance(可供性)和 learner agency(學習者主動性)兩個概念。研究發現了四種 affordances(語言的、數位的、社交的、情感的)以及兩種 agency(個人主動發起的、透過與他人互動共同建構的)。

這篇的方法論設計相當完整,值得拆開來看。


為什麼四個人就夠:質性研究的人數邏輯

在量化研究裡,樣本數是真的有「夠不夠」的問題,因為你需要足夠的統計力(power)來偵測效果。

但質性研究的目標不是「推論到更大的母群體」(關於個案研究的樣本數邏輯,可參考這篇文章),而是「深入理解特定現象的機制與意義」。

這兩種目標,需要完全不同的樣本邏輯。

質性研究問的是:在什麼條件下,這個現象是如何發生的?

要回答這個問題,你需要的是「夠深的理解」,不是「夠大的樣本」。

Lincoln 和 Guba(1985)提出的概念是「資訊飽和」(informational redundancy)——當你繼續訪談新的參與者,再也得不到新的主題或新的洞察,這時候樣本就足夠了。

四個人可以達到這個標準嗎?在某些研究問題下,可以。特別是當:

  • 研究問題聚焦在特定情境或特定群體的深層經驗
  • 每位參與者提供了豐富、深入的資料
  • 多份資料來源互相支撐
  • 研究者有清晰的理論框架引導分析

Li & Ding (2026) 全部符合。


這篇做對了什麼:五個關鍵設計決定

1.

四個人的訪談也能發 SSCI?質性研究樣本數的真正邏輯 Read More »

Scroll to Top