我在看研究計畫、proposal,或是學生剛開始設計研究時,最常問的一句話不是「你的理論是什麼」,而是:
你為什麼要收這麼多樣本?
很多人的答案其實都很隨便。有人說因為學長姐以前差不多收這個數字,有人說 30 個看起來像個基本盤,也有人說時間大概只夠做到這裡。
這些都不是研究設計上的答案。
真正比較像樣的答案應該是:你的樣本數,是根據研究問題、效果量假設、顯著水準與統計檢定力,一起推回來的。
而這也是為什麼,只要你開始碰研究計畫申請、投稿,甚至只是想把研究做得像樣一點,你遲早都得面對統計檢定力(statistical power)。
如果你對這個概念還不熟,建議你先看前一篇:什麼是統計檢定力 (power)?
那篇是在講概念;這一篇開始,我們進入實作。
G*Power 是一套非常經典、免費,而且到現在還是很好用的統計檢定力軟體。它有 Windows 跟 Mac 版本。對研究生來說,它最大的價值不是「會按」,而是它會逼你把研究設計裡幾個本來常常講不清楚的判準,真的講清楚。
這系列的 G*Power 教學,是基於 UCLA 的教材架構,再加上我自己的改寫、練習題與說明。我希望你不是只會跟著按,而是真的建立樣本數估算的直覺。
什麼情況下,適合用這個 one-sample case?
我們先從最基本的情境開始:已知母群體(population)的平均值與標準差,從中抽出一些樣本,想檢驗這組樣本與母群體之間是否有顯著差異。
老實說,在真實研究裡,這種「母群體平均數與標準差都已知」的情況並不常見。大部分時候,我們研究的就是未知母群體。但教學上,這是一個很好的起點,因為它最單純,也最容易幫你抓到統計檢定力在做什麼。
如果你連這種最基本的情況都沒有直覺,後面碰到 independent t-test、ANOVA、regression,只會算得更亂。
一個很適合練手的例子:燈泡壽命
來看一個具體例子。
某家燈泡公司宣稱,他們家的燈泡平均壽命是 850 小時,標準差為 50 小時。某消費者保護團體對這個說法有懷疑,認為實際平均壽命可能只有 810 小時左右。
那問題就來了:
如果消保團體真的要做一次正式測試,他們到底要買多少顆燈泡回來測,才比較有把握偵測到這個差異?
這就是統計檢定力問題很典型的樣子。你不是先決定「我想測 10 顆」或「我懶得測太多」;你是先界定你想抓到多大的差異,再回頭算需要多少樣本。
G*Power 實作步驟
現在把 G*Power 打開,我們一步一步來。
步驟 1:選擇檢定類型
因為這裡是拿一組樣本去和已知母群體常數比較,所以在主畫面中設定:
- Test family:
t tests
- Statistical test:
Means: Difference from constant (one sample case)
- Type of power analysis:
A priori: Compute required sample size - given α, power, and effect size
這一步真正重要的地方是:
你先要知道自己在回答哪一種研究問題,軟體才有意義。
不要先打開 G*Power,才開始想哪個選項比較省樣本數。
步驟 2:設定統計參數
接下來設定幾個核心門檻:
- Tail(s):選
Two(雙尾檢定)
- Power (1-β err prob):設
0.9
- α err prob:設
0.05

為什麼這樣設?
- 雙尾檢定:因為在這個例子裡,我們要檢驗的是「有沒有差異」,而不是一開始就只押某一個方向。
- Power = 0.9:代表如果真實平均壽命大約就是 810 小時,則在這些設定下,我們有約 90% 的機率偵測到它和 850 小時之間的差異。
- α = 0.05:這是最常見的顯著水準,意思是你願意承擔第一型錯誤的上限。
這一步不是在填表格而已。
你其實是在決定:你希望研究有多大的把握抓到真實差異,以及你願意承擔多少錯判風險。
如果你之後要申請大型研究計畫(grants),這些數字就更不是隨便填。審查委員不是只看你有沒有寫 sample size,而是會看你這些設定背後有沒有邏輯。
步驟 3:計算效果量(effect size)
這一步是很多人第一次用時最容易卡住的地方,但這個例子其實很好算。
在 GPower 裡,你可以按 Determine*,讓系統幫你算 effect size。填入下列數字:
- Mean H0(虛無假設,也就是公司宣稱值):
850
- Mean H1(你預期的實際值):
810
- SD(標準差):
50
按下 Calculate 後,你會看到效果量 d = 0.8。
這個數值其實不神祕,它就是:
|850 - 810| / 50 = 0.8
也就是說,你假設的差異大小是 0.8 個標準差。
按下 Calculate and transfer to main window,把這個 effect size 帶回主畫面。

這一步在研究設計上的意思是:
你必須先對「你預期會看到多大的差異」有一個合理假設,樣本數才算得出來。
如果你對 effect size 沒感覺,可以回頭看這兩篇:
很多人不是不會按 G*Power,而是根本不知道 effect size 該怎麼想。這個問題不處理,後面樣本數算得再漂亮都沒意義。
步驟 4:得出所需樣本數
回到主畫面後,確認參數如下:
- Tail:
Two
- Effect size d:
0.8
- α:
0.05
- Power:
0.9
然後按下右下角的 Calculate。
在 Output parameters 區塊中,你會看到:
這代表的是:
如果真實平均壽命約為 810 小時,而且母群體標準差約為 50,在上述假設與設定下,抽樣 19 顆燈泡,大約有 90% 的檢定力可以偵測到它和 850 小時之間的差異。
這裡要特別提醒一句:
統計上比較精確的說法是「偵測到差異的能力」,不是直接寫成「證明廣告不實」。統計顯著是推論上的結果,不等於法律、商業或事實上的最終裁定。這個界線最好分清楚。

練習題
學會了基本操作,現在輪到你自己動手調參數,感受一下這些設定如何影響樣本數。請用 G*Power 算以下幾題:
- 將 power 改成 0.8 ,需要幾個燈泡?
- power 0.9,單尾的情況下,需要幾個燈泡?
- power 0.9,雙尾, alpha 改成 0.1 ,需要幾個燈泡?
- 從上面三個例子,你觀察到什麼?為什麼會有這樣的結果?
這幾題不要只是把答案按出來而已。你真正要練的是:
當你放寬 alpha、降低 power、或把雙尾改成單尾時,為什麼樣本數需求會跟著變?
如果你把這個直覺建立起來,後面在寫論文、回審稿意見、做 proposal 時,你就不會只是在「按軟體」,而是真的知道自己在做什麼。
延伸閱讀
如果你想把這個主題往下接,我建議順著看這幾篇:
小結
這一篇你不用急著背公式,你只要先抓住一件事就夠了:
樣本數不是先決定的,而是由研究假設、效果量、alpha 與 power 一起推回來的。
G*Power 只是工具;真正重要的是,你對這些參數背後代表的研究判準,有沒有想清楚。
…