G*Power 計算統計檢定力 (一):單一樣本與已知母群體的基礎操作

我在看研究計畫、proposal,或是學生剛開始設計研究時,最常問的一句話不是「你的理論是什麼」,而是:

你為什麼要收這麼多樣本?

很多人的答案其實都很隨便。有人說因為學長姐以前差不多收這個數字,有人說 30 個看起來像個基本盤,也有人說時間大概只夠做到這裡。

這些都不是研究設計上的答案。

真正比較像樣的答案應該是:你的樣本數,是根據研究問題、效果量假設、顯著水準與統計檢定力,一起推回來的。
而這也是為什麼,只要你開始碰研究計畫申請、投稿,甚至只是想把研究做得像樣一點,你遲早都得面對統計檢定力(statistical power)。

如果你對這個概念還不熟,建議你先看前一篇:什麼是統計檢定力 (power)?
那篇是在講概念;這一篇開始,我們進入實作。

G*Power 是一套非常經典、免費,而且到現在還是很好用的統計檢定力軟體。它有 Windows 跟 Mac 版本。對研究生來說,它最大的價值不是「會按」,而是它會逼你把研究設計裡幾個本來常常講不清楚的判準,真的講清楚。

這系列的 G*Power 教學,是基於 UCLA 的教材架構,再加上我自己的改寫、練習題與說明。我希望你不是只會跟著按,而是真的建立樣本數估算的直覺。

什麼情況下,適合用這個 one-sample case?

我們先從最基本的情境開始:已知母群體(population)的平均值與標準差,從中抽出一些樣本,想檢驗這組樣本與母群體之間是否有顯著差異。

老實說,在真實研究裡,這種「母群體平均數與標準差都已知」的情況並不常見。大部分時候,我們研究的就是未知母群體。但教學上,這是一個很好的起點,因為它最單純,也最容易幫你抓到統計檢定力在做什麼。

如果你連這種最基本的情況都沒有直覺,後面碰到 independent t-test、ANOVA、regression,只會算得更亂。

一個很適合練手的例子:燈泡壽命

來看一個具體例子。

某家燈泡公司宣稱,他們家的燈泡平均壽命是 850 小時,標準差為 50 小時。某消費者保護團體對這個說法有懷疑,認為實際平均壽命可能只有 810 小時左右。

那問題就來了:

如果消保團體真的要做一次正式測試,他們到底要買多少顆燈泡回來測,才比較有把握偵測到這個差異?

這就是統計檢定力問題很典型的樣子。你不是先決定「我想測 10 顆」或「我懶得測太多」;你是先界定你想抓到多大的差異,再回頭算需要多少樣本。

G*Power 實作步驟

現在把 G*Power 打開,我們一步一步來。

步驟 1:選擇檢定類型

因為這裡是拿一組樣本去和已知母群體常數比較,所以在主畫面中設定:

  • Test familyt tests
  • Statistical testMeans: Difference from constant (one sample case)
  • Type of power analysisA priori: Compute required sample size - given α, power, and effect size

這一步真正重要的地方是:
你先要知道自己在回答哪一種研究問題,軟體才有意義。
不要先打開 G*Power,才開始想哪個選項比較省樣本數。

步驟 2:設定統計參數

接下來設定幾個核心門檻:

  • Tail(s):選 Two(雙尾檢定)
  • Power (1-β err prob):設 0.9
  • α err prob:設 0.05

1.png

為什麼這樣設?

  • 雙尾檢定:因為在這個例子裡,我們要檢驗的是「有沒有差異」,而不是一開始就只押某一個方向。
  • Power = 0.9:代表如果真實平均壽命大約就是 810 小時,則在這些設定下,我們有約 90% 的機率偵測到它和 850 小時之間的差異。
  • α = 0.05:這是最常見的顯著水準,意思是你願意承擔第一型錯誤的上限。

這一步不是在填表格而已。
你其實是在決定:你希望研究有多大的把握抓到真實差異,以及你願意承擔多少錯判風險。

如果你之後要申請大型研究計畫(grants),這些數字就更不是隨便填。審查委員不是只看你有沒有寫 sample size,而是會看你這些設定背後有沒有邏輯。

步驟 3:計算效果量(effect size)

這一步是很多人第一次用時最容易卡住的地方,但這個例子其實很好算。

在 GPower 裡,你可以按 Determine*,讓系統幫你算 effect size。填入下列數字:

  • Mean H0(虛無假設,也就是公司宣稱值):850
  • Mean H1(你預期的實際值):810
  • SD(標準差):50

按下 Calculate 後,你會看到效果量 d = 0.8

這個數值其實不神祕,它就是:

|850 - 810| / 50 = 0.8

也就是說,你假設的差異大小是 0.8 個標準差

按下 Calculate and transfer to main window,把這個 effect size 帶回主畫面。

2.png

這一步在研究設計上的意思是:
你必須先對「你預期會看到多大的差異」有一個合理假設,樣本數才算得出來。

如果你對 effect size 沒感覺,可以回頭看這兩篇:

很多人不是不會按 G*Power,而是根本不知道 effect size 該怎麼想。這個問題不處理,後面樣本數算得再漂亮都沒意義。

步驟 4:得出所需樣本數

回到主畫面後,確認參數如下:

  • Tail: Two
  • Effect size d: 0.8
  • α: 0.05
  • Power: 0.9

然後按下右下角的 Calculate

在 Output parameters 區塊中,你會看到:

  • Total sample size = 19

這代表的是:

如果真實平均壽命約為 810 小時,而且母群體標準差約為 50,在上述假設與設定下,抽樣 19 顆燈泡,大約有 90% 的檢定力可以偵測到它和 850 小時之間的差異。

這裡要特別提醒一句:
統計上比較精確的說法是「偵測到差異的能力」,不是直接寫成「證明廣告不實」。統計顯著是推論上的結果,不等於法律、商業或事實上的最終裁定。這個界線最好分清楚。

3.png

練習題

學會了基本操作,現在輪到你自己動手調參數,感受一下這些設定如何影響樣本數。請用 G*Power 算以下幾題:

  1. 將 power 改成 0.8 ,需要幾個燈泡?
  2. power 0.9,單尾的情況下,需要幾個燈泡?
  3. power 0.9,雙尾, alpha 改成 0.1 ,需要幾個燈泡?
  4. 從上面三個例子,你觀察到什麼?為什麼會有這樣的結果?

這幾題不要只是把答案按出來而已。你真正要練的是:

當你放寬 alpha、降低 power、或把雙尾改成單尾時,為什麼樣本數需求會跟著變?

如果你把這個直覺建立起來,後面在寫論文、回審稿意見、做 proposal 時,你就不會只是在「按軟體」,而是真的知道自己在做什麼。

延伸閱讀

如果你想把這個主題往下接,我建議順著看這幾篇:

小結

這一篇你不用急著背公式,你只要先抓住一件事就夠了:

樣本數不是先決定的,而是由研究假設、效果量、alpha 與 power 一起推回來的。

G*Power 只是工具;真正重要的是,你對這些參數背後代表的研究判準,有沒有想清楚。

5 thoughts on “G*Power 計算統計檢定力 (一):單一樣本與已知母群體的基礎操作”

  1. 版主你好,不知可否在此文章發問關於stata的問題呢?
    是這樣的,因為需求的關係,
    想要將stata所輸出word檔案括號中的值,
    換成是P值,請問這該怎麼去設定呢>"<

    真的很感謝您

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Scroll to Top