「老師,我到底要訪談幾個人?」:打破理論飽和(Theoretical Saturation)的迷思

「老師,我到底要訪談幾個人?」:打破理論飽和(Theoretical Saturation)的迷思

這是我在指導研究生時,最常被問到的問題之一:「老師,我這篇質性研究到底要收多少樣本才夠?十個可以嗎?還是要二十個?」很多同學以為這是一個數字遊戲,好像達到了某個神聖的數字,研究就可以順利過關。

每次遇到這種問題,我都會反問他們一個核心概念:「你達到『理論飽和』(Theoretical Saturation)了嗎?」

這句話一出,很多學生的表情就會變得有些迷惘。他們可能在研究方法的課堂上聽過這個詞,甚至在自己的論文計畫書裡寫過,但如果要具體解釋它是什麼,以及如何判斷,往往說不清楚。

今天,我們就來好好談談「理論飽和」,打破關於質性研究樣本數的常見迷思,告訴你如何判斷你的資料到底「夠了沒」。

什麼是理論飽和?它不是一個數字,是一個狀態

「理論飽和」這個概念,最早源自 Glaser 和 Strauss(1967)提出的紮根理論(Grounded Theory)。簡單來說,理論飽和指的是:當你繼續收集新的資料、進行新的訪談時,已經無法再產生新的洞見、新的主題或新的類別,且現有理論框架的屬性與維度都已經被充分發展時,你的資料就達到了飽和。

把這件事想像成你在拼一幅拼圖。一開始,你拿到很多邊緣的碎片,慢慢拼湊出一個輪廓;接著,你開始填補中間的區塊,圖案越來越清晰。到了一個時間點,你再拿到新的拼圖碎片,你發現它們只是重複現有的圖案,對整幅畫的理解沒有任何新的貢獻。這個時候,你的「拼圖」就飽和了。

所以,理論飽和不是看你訪談了「多少人」,而是看你「問出了什麼」。這是一種對資料深度的評估,而不是對數量的執著。

關於理論飽和的常見誤解

在實務上,許多研究者對理論飽和有著錯誤的期待與操作方式。以下是幾個最常見的盲點:

誤解一:把「資料飽和」等同於「理論飽和」

很多學生會說:「老師,我訪談到第十二個人,他們講的東西都跟前面的人一樣了,所以我達到理論飽和了!」

這是一個很常見的盲點。受訪者說了相同的話,叫做「資料飽和」(Data Saturation)或是「資訊冗餘」(Informational Redundancy)。但「理論飽和」要求的是更高層次的分析:你是否已經將這些資料提升到了概念的層次?你的理論模型是否已經足夠厚實,能夠解釋這些現象?如果你的訪談問題本來就很淺薄,那當然很快就會聽到重複的答案,但這並不代表你的理論已經完整了。

誤解二:先預設一個樣本數,然後宣稱飽和

有些學生會在計畫書裡寫:「本研究預計訪談 15 人,以達到理論飽和。」這在邏輯上是不通的。理論飽和是「做出來」的,不是「預測出來」的。你無法在收集資料之前,就知道何時會再也找不到新的概念。真正的理論飽和,是透過資料收集與資料分析的「來回交替」(Iterative Process)逐步確認的。

誤解三:把飽和當作偷懶的藉口

「老師,我訪談五個人就飽和了,可以不用再做了吧?」

如果你的研究對象非常同質,且研究問題極度聚焦,五個人或許有可能。但在多數情況下,過早宣稱飽和,往往是因為研究者缺乏理論敏感度(Theoretical Sensitivity),看不出資料中潛藏的細微差異,或是因為不想再辛苦找受訪者了。記住,審查委員(Reviewers)都是身經百戰的,你是不是真的飽和,他們從你的分析深度一眼就看穿了。

實務建議:如何判斷並證明你已經達到了理論飽和?

了解了迷思之後,身為研究生,你該如何在論文中具體展現你已經達到了理論飽和?這裡有幾個務實的建議:

1.

「老師,我到底要訪談幾個人?」:打破理論飽和(Theoretical Saturation)的迷思 Read More »

Cronbach’s α 不是萬用的:二元計分該用 KR-20

前陣子在幫一本期刊審稿時,又看到了一個非常典型、許多研究生都會踩到的統計地雷。

這篇研究用了一份自編的知識測驗量表,所有的題目都是「對/錯」的二元計分(0或1)。然而,在信度分析的部分,作者洋洋灑灑地報出了「Cronbach’s α = .85」。

當下我的第一個反應是:數值看起來不錯,但指標用錯了。

如果你也是正在處理問卷數據的碩博士生,或者你設計的量表包含是非題、檢核表、選擇題(答對給 1 分、答錯給 0 分),這篇文章就是為你寫的。我們來聊聊為什麼在這種情況下,你不該報 Cronbach’s α,而應該改用 KR-20 (Kuder-Richardson Formula 20)

為什麼 0/1 計分不能直接用 Cronbach’s α?

在社會科學研究中,Cronbach’s α 幾乎成了內部一致性信度(internal consistency reliability)的代名詞。許多同學跑統計時,不管三七二十一,直接把所有題目丟進軟體裡算 α 值。就像我在之前文章《Cronbach’s α 信度夠高就好嗎?》裡提過的,信度分析不能只看數字高低,還要看你的資料性質。

Cronbach’s α 的設計初衷,是針對「連續變項」或至少是「多點量表的類別變項」(例如典型的 5 點或 7 點李克特量表,Likert scale)。它考慮了題目得分的變異數。

但是,當你的題目是 0 和 1 的二元計分(dichotomous data)時,資料本身是不連續的。這時候,計算連續變異數的數學邏輯就不完全適用了。強行用 SPSS 或其他軟體跑 Cronbach’s α,雖然軟體還是會吐出一個數字給你,但這在統計學理上是不夠嚴謹的。

KR-20 是什麼?它和 Cronbach’s α 有什麼關係?

這時候,我們需要搬出 KR-20

KR-20(Kuder-Richardson Formula 20)是專門用來計算「二元計分」題目內部一致性的信度係數。有趣的是,從數學推導來看,KR-20 其實是 Cronbach’s α 在二元資料下的特例

如果你把 0/1 的資料丟進公式去算,得出來的 KR-20 數值,往往會跟軟體硬算出來的 Cronbach’s α 數值一模一樣,或者極度接近。

你可能會問:「既然數字一樣,那報 Cronbach’s α 錯在哪裡?」

問題出在「專業度」與「對資料性質的理解」。當你在論文裡寫下「本研究以 KR-20 檢驗二元計分題目的信度」時,你是在向審稿人(或口試委員)傳遞一個明確的訊息:我清楚我的資料是類別變項,而且我知道針對這類資料該用什麼統計方法。

相反地,如果你報 Cronbach’s α,審稿人心裡可能會打個問號:「這個作者是不是只會按軟體預設的按鈕,連資料尺度都沒搞清楚?」在競爭激烈的學術期刊審查中,這種小細節往往會影響審稿人對你整體研究嚴謹度的第一印象。

實務上的建議與做法

那麼,如果你現在的手邊正好有這類資料,該怎麼辦呢?我給碩博士生們三個實務上的建議:

第一,檢視你的量表計分方式。
在跑信度之前,先確認每一題的計分尺度。如果是 1-5 分的同意度量表,放心用 Cronbach’s α。如果是對錯題、有/無、是/否這種只有 0 和 1 的計分,請把 KR-20 寫進你的分析計畫裡。

第二,不要被軟體的介面綁架。
很多同學會說:「可是 SPSS 的 Reliability Analysis 預設只有 Alpha 可以選啊!」沒錯,在許多軟體中,如果你硬跑 Alpha,它跑出來的數字其實就是 KR-20 的等效值。但在寫作時,你必須在文字描述和表格標題中,將其正確標示為 KR-20。這是寫作上的嚴謹,與軟體介面無關。

第三,混合題型的量表要分開處理。
這是我最常看到的另一個誤區:同一份問卷裡,前半部是 1-5 分的態度題,後半部是 0/1 的知識題,然後作者把它們全部混在一起跑一個總信度。這在統計上是災難。你應該把李克特量表的部分獨立跑 Cronbach’s α,二元計分的部分獨立跑 KR-20,然後分別在報告中呈現。

結語:魔鬼藏在細節裡

學術研究的價值,很大一部分建立在方法論的嚴謹度上。信度分析只是資料處理的第一步,但這一步走得穩不穩,往往決定了後續分析的基礎。

下次遇到 0/1 計分的量表,別再習慣性地敲下 Cronbach’s α 的按鈕了。換成 KR-20,讓你的論文在細節處展現出真正的學術專業度。這不僅能幫你避開像我這種挑剔的審稿人的法眼,更是對你自己研究資料的一種尊重。

相關文章

References

Cronbach, L.…

Cronbach’s α 不是萬用的:二元計分該用 KR-20 Read More »

四個人的訪談也能發 SSCI?質性研究樣本數的真正邏輯

很多研究生以為質性研究「找越多人越好」。這篇文章告訴你,數字不是重點,設計才是。


質性研究五個關鍵設計:Purposeful Sampling、訪談深度、Data Triangulation、理論框架驅動分析、Trustworthiness

你可能聽過這個問題

「老師,我的論文只訪談了六個人,這樣夠嗎?」

這是我在指導學生時最常被問到的問題之一。通常伴隨著一臉焦慮。

我的回答永遠是:「先告訴我你的研究問題是什麼。」

因為「幾個人夠」這個問題,根本問錯了方向。

最近我讀到一篇論文,是今年剛發表在 System(SSCI,Applied Linguistics)的文章。研究者 Li 和 Ding 只訪談了 4 位參與者——四位在抖音拍英文 vlog 的中國大學生——卻通過了嚴格的同儕審查,發表在頂尖期刊。

我用這篇論文作為案例,帶你看懂質性研究「人數邏輯」的真正本質。


這篇論文做了什麼

Li & Ding (2026) 研究的是:中國大學生在抖音上拍英文 vlog,這個行為為他們的英語學習帶來了什麼?背後有什麼機制在運作?

他們的理論框架是生態學視角(ecological perspective),聚焦在 affordance(可供性)和 learner agency(學習者主動性)兩個概念。研究發現了四種 affordances(語言的、數位的、社交的、情感的)以及兩種 agency(個人主動發起的、透過與他人互動共同建構的)。

這篇的方法論設計相當完整,值得拆開來看。


為什麼四個人就夠:質性研究的人數邏輯

在量化研究裡,樣本數是真的有「夠不夠」的問題,因為你需要足夠的統計力(power)來偵測效果。

但質性研究的目標不是「推論到更大的母群體」(關於個案研究的樣本數邏輯,可參考這篇文章),而是「深入理解特定現象的機制與意義」。

這兩種目標,需要完全不同的樣本邏輯。

質性研究問的是:在什麼條件下,這個現象是如何發生的?

要回答這個問題,你需要的是「夠深的理解」,不是「夠大的樣本」。

Lincoln 和 Guba(1985)提出的概念是「資訊飽和」(informational redundancy)——當你繼續訪談新的參與者,再也得不到新的主題或新的洞察,這時候樣本就足夠了。

四個人可以達到這個標準嗎?在某些研究問題下,可以。特別是當:

  • 研究問題聚焦在特定情境或特定群體的深層經驗
  • 每位參與者提供了豐富、深入的資料
  • 多份資料來源互相支撐
  • 研究者有清晰的理論框架引導分析

Li & Ding (2026) 全部符合。


這篇做對了什麼:五個關鍵設計決定

1.

四個人的訪談也能發 SSCI?質性研究樣本數的真正邏輯 Read More »

Cronbach’s α 信度夠高就好嗎?你需要知道它告訴不了你什麼

每學期批改研究計畫書,我都會看到同樣一句話:「本量表 Cronbach’s α = .87,信度良好。」

這句話沒有錯,但它遮蔽了很多問題。Cronbach’s α 是什麼?它能告訴你什麼?更重要的是,它告訴不了你什麼?這篇把這些事情說清楚。

Cronbach’s α 是什麼?

Cronbach's α 四個常見誤解

Cronbach’s α(1951)是量表內部一致性的常用估計指標,用來反映題項作為同一量表時的一致程度。直覺上的意義是:如果一組題目都在測同一個構念,它們應該彼此高度相關;α 就是這個相關程度的綜合指標。

α 的值介於 0 到 1 之間,常見的經驗法則參考門檻:

  • α ≥ .90:優秀
  • .80 ≤ α < .90:良好
  • .70 ≤ α < .80:可接受
  • α < .70:不足(有些領域接受 .65)

⚠️ 這些只是經驗法則,不是硬性標準。把 α 值對應到門檻後就結束信度討論,是很多論文的問題所在。

α 告訴不了你的三件事

一、α 高 ≠ 量表是單一構念

α 高只代表題項彼此相關。如果一個量表包含兩個彼此相關的構念(例如:認知投入和行為投入),α 仍然可能很高,但這不代表它是單一維度的量表。

我看過學生把一個雙因素量表的所有題目混在一起算整體 α,然後用整體分數做分析。這在結構上是有問題的——你應該分別報告各分量表的 α,而不是把所有題項混算。

⚠️ 審稿人最常抓的點:明明是多構面量表,作者卻只報整體 α,不分子量表報告。這幾乎是 reviewer 的標準 comment,值得提前防範。

二、α 受題項數影響

在其他條件相同的情況下,題項越多,α 越高。題目變多會拉高 α,但不代表量表內容更好、更精準。你可以把一個很差的量表通過無限增加題目來提高 α。

因此,α = .92 不能直接說「量表很好」,也要看題目數量、每題是否有獨立貢獻。

三、α 假設等負荷,在題項負荷差異大時可能偏估

Cronbach’s α 有一個數學假設:每個題項對潛在構念的「貢獻」是相等的(tau-equivalence)。如果題項的因素負荷量差異很大(現實中非常常見),α 在某些條件下可能高估或低估真實信度,因此不應被視為精確無誤的單一答案。

⚠️ α 高不代表有效度。 我看過學生把「信度良好」寫得像量表已被證明有效——這是兩件不同的事。信度高只說明題項彼此一致;量表是否真的在測你想測的構念(效度),需要另外的證據。

四、反向題沒處理會讓 α 崩掉

這不是 α 本身的限制,而是學生最常犯的操作錯誤。我看過不少學生拿到一個 α 很低的結果,以為是量表有問題,後來發現是反向題根本沒有先做逆向計分(reverse coding)

凡是量表中有反向題(例如:「我不擅長時間管理」和「我能有效管理時間」放在同一個量表),在計算 α 之前,必須先把反向題的分數翻轉(5 改 1,4 改 2 等等)。跳過這步,α 一定偏低,甚至是負數。

更好的替代指標:McDonald’s ω

α 假設每題對構念貢獻相近;McDonald’s ω 則允許不同題項有不同的因素負荷量。因此,ω 在很多情況下比 α 更能補足內部一致性估計的限制,是近年方法學文獻更推薦的補充指標。

⚠️ ω 不是要取代 α,而是幫你更完整地說明量表信度。兩者都報,才是現在審稿人比較期待的做法。

ω 有兩種版本:

  • ω total(ω_t):整體量表總分作為測量工具時的可靠性,適合單維度量表。
  • ω hierarchical(ω_h):當量表有一般因素與群因素時,總分到底多大程度反映一般因素——適合多維度量表,回答「整體分數有多可靠」這個問題。

計算工具:R psych 套件(omega())、JASP(信度分析模組)。

⚠️ ω 的估計通常建立在因素模型上,因此最好在有清楚測量模型或因素分析結果支持下報告。如果你的量表沒有做 EFA 或 CFA,ω 的計算本身也缺乏依據。許多期刊與審稿人會鼓勵同時報告 α 與 ω,作為更完整的信度說明。

α 太高是問題嗎?

有學生問我:「老師,α = .96 是不是很好?」

我說:「要看情況。」

α 非常高(.95)有時候反而是個警訊:

  • 題項重複性太高:幾道題說的幾乎是同一件事,對量表沒有增加新資訊。
  • 題項數量過多:用 20 題測一個概念,α 自然飆高。

信度不是越高越好,而是應該在「足夠高」的範圍內,同時確認每道題都有獨立貢獻:

  • item-total correlation 應 > .30(表示這題與整體量表有正向相關)
  • 刪除某題後,若 α 明顯上升,表示該題可能與整體量表不一致,需要重新檢視

⚠️ 補充提醒:α 不是量表的固定屬性,同一份量表在不同樣本(例如:不同年齡層、不同文化背景)可能得到不同的 α 值。不要把文獻上的 α 直接當作自己研究的品質背書,而要根據自己資料實際計算並報告。

如何在論文裡報告?

完整的信度報告應包含:

  • 各分量表各自報 α,不要只報整體(多維度量表尤其重要)
  • 題項數:α = .87(8 題)
  • ω 值(若有因素分析基礎):α = .87,ω = .89
  • item-total correlation:審稿人若問,你要能提供

範例寫法:「本研究採用 XX 量表,共 3 個分量表。各分量表的 Cronbach’s α 分別為:認知投入 .83(5 題),行為投入 .79(4 題),情感投入 .86(5 題),均達可接受標準(α ≥ .70)。McDonald’s ω 分別為 .85、.81、.87,與 α 值相近,顯示各分量表符合基本的等負荷假設。」

如果有問題,歡迎留言。

更新記錄:2026-03 首次發布。

Cronbach’s α 信度夠高就好嗎?你需要知道它告訴不了你什麼 Read More »

缺失值怎麼處理?從 MCAR、MAR 到多重插補,一篇說清楚

學生交來初稿,我翻到方法段,看到一句話:「本研究刪除含有遺漏值的樣本,最終有效樣本為 N = 218。」

我問:「原始問卷收了多少份?」

他說:「251 份。」

我說:「你刪掉了 33 個人,占將近 13%。你有沒有想過,這 33 個人為什麼沒有填完?」

他沉默了一下。這個問題,很多學生沒有想過。

缺失值不是「髒資料」,是資訊

缺失值三種機制(MCAR/MAR/MNAR)與建議處理方式

缺失值(missing data)在量化研究裡幾乎無可避免。問卷有人跳題、有人漏填、有人中途離開;追蹤研究有人失聯。問題不是「資料有缺失就不好」,而是:這些缺失是怎麼產生的?

Rubin(1976)把缺失值的機制分成三類,這個分類直接決定你應該用什麼方法處理:

  1. MCAR(Missing Completely At Random,完全隨機缺失)
    缺失與任何變項的值完全無關。例如:問卷印刷有個版本漏印了一題,哪些人拿到這份問卷是隨機的。
    這是最理想的情況,但現實中很少見。
  2. MAR(Missing At Random,隨機缺失)
    缺失與其他已觀察到的變項有關,但與遺漏的數值本身無關。例如:女性比男性更容易在薪資題跳過,但控制性別後,缺失就不再系統性地和薪資高低有關。
    這是最常見的假設,多重插補和 FIML 都以 MAR 為前提。
  3. MNAR(Missing Not At Random,非隨機缺失)
    缺失和遺漏的數值本身有關。例如:憂鬱分數越高的人越可能跳過憂鬱相關題項。
    這是最棘手的情況,標準統計方法無法完全解決,需要特殊模型或明確說明限制。

Listwise Deletion 的問題

Listwise deletion(刪除含有缺失值的整筆資料)是最常用的做法,SPSS 的預設值也是這個。它只在 MCAR 的情況下不會造成偏誤——因為只有在缺失完全隨機時,刪掉這些人才不會讓留下來的樣本變得「特別」。

如果缺失是 MAR 或 MNAR,listwise deletion 會:

  • 造成樣本偏誤:留下來的樣本不再能代表原始母群
  • 損失統計力:樣本數減少,估計誤差增大
  • 低估標準誤:某些情況下讓結果看起來比實際更顯著

⚠️ 容易犯錯的地方:學生在方法段只寫「刪除含有遺漏值的樣本」,但沒有說明缺失率、沒有檢驗缺失機制、也沒有討論這個做法對結論可能的影響。審稿人看到這裡,會直接問:你怎麼知道缺失是 MCAR?

現代處理方式:MI 和 FIML

當前方法學文獻推薦的兩種主流做法是多重插補(Multiple Imputation, MI)完整資訊最大概似法(Full Information Maximum Likelihood, FIML)。兩者都在 MAR 假設下比 listwise deletion 表現更好。

多重插補(MI)

核心邏輯:不是用一個值去填補缺失,而是建立多個完整資料集(常見做法是 20 次以上,缺失比例較高時可增加插補次數),每次填補都反映填補的不確定性,最後合併分析結果。

操作工具:SPSS(Analyze → Multiple Imputation)、R mice 套件、Stata mi impute

適合情況:缺失值分散在多個變項;想用不同軟體分開做插補和分析。

完整資訊最大概似法(FIML)

在 SEM 或 CFA 模型中,FIML 讓模型在估計時直接使用每個受試者提供的所有有效資訊,不需要預先填補缺失值。FIML 通常適用於以模型為基礎的分析(如 CFA、SEM、路徑分析),不是所有統計程序都能直接套用。

操作工具:AMOS(預設支援)、R lavaan(missing = "fiml")、Mplus(DATA: LISTWISE = OFF)。

適合情況:跑 CFA 或 SEM,缺失值主要在觀察變項上。

⚠️ 容易犯錯的地方(一):學生以為 FIML「自動處理了缺失值所以不用報告」。其實 FIML 也需要在方法段說明:使用 FIML 估計,假設缺失機制為 MAR。

⚠️ 容易犯錯的地方(二):用 MI 時,插補模型包含的變項不夠完整。MI 的插補品質取決於插補模型有多少有效預測變項——把所有分析相關變項都納入插補模型,結果才可靠。

怎麼檢驗缺失機制?

在方法段說明缺失值處理之前,應該先報告你如何判斷缺失機制。

Little’s MCAR test:SPSS 有內建(Analyze → Missing Value Analysis → Little’s MCAR test)。若 p > .05,表示沒有足夠證據拒絕 MCAR 假設,常被視為與 MCAR 相容——但這不等於「確認是 MCAR」,統計檢驗只能提供線索,機制判斷仍需結合理論與資料情境。

輔助變項分析:建立「是否缺失」的虛擬變項,與其他變項做 t-test 或卡方檢定。如果缺失組和完整組在某些變項上有顯著差異,就有理由懷疑不是 MCAR。

⚠️ 容易犯錯的地方:MNAR 無法用標準統計方法驗證(因為你沒有缺失的數值)。遇到可能是 MNAR 的情況,誠實在討論段說明是更合適的做法,而不是假裝問題不存在。

如何在論文裡報告?

缺失值的報告應包含:

  • 缺失率:整體缺失率(如:缺失佔全部資料格的 X%);各關鍵變項的缺失情況
  • 缺失機制:如何判斷(Little’s MCAR test 結果,或輔助分析結論)
  • 處理方式:用了哪種方法(MI / FIML / listwise)以及選擇理由
  • MI 的細節(若使用):插補次數、插補模型包含哪些變項、軟體

範例寫法:「本研究資料缺失率為 4.3%,各變項缺失率均低於 10%。Little’s MCAR test 結果不顯著(χ² = 12.3, df = 14, p = .58),初步支持缺失隨機假設。採用多重插補法(R mice 套件,M = 20 次),插補模型包含所有分析變項。」

缺失率多高就不能用?

沒有絕對的門檻。常見的粗略參考是:

  • 5% 以下:通常影響不大,listwise 或 MI 均可,但應說明。
  • 5%–20%:建議用 MI 或 FIML,並報告缺失機制檢驗。
  • 20% 以上:需要非常謹慎,MI 仍可嘗試,但解釋要保守,且需討論對結論的潛在影響。

這些只是經驗參考,不是硬性標準。更重要的判斷仍是:缺失是否系統性地影響估計結果? 也需要交代缺失集中在哪些變項——是 outcome 缺失多?還是某個背景變項?是否集中在特定群體? 5% 的 MNAR 可能比 15% 的 MCAR 更嚴重。

如果有問題,歡迎留言。

更新記錄:2026-03 首次發布。

缺失值怎麼處理?從 MCAR、MAR 到多重插補,一篇說清楚 Read More »

Scroll to Top