G*Power 計算統計檢定力 (一)：單一樣本與已知母群體的基礎操作

我在看研究計畫、proposal，或是學生剛開始設計研究時，最常問的一句話不是「你的理論是什麼」，而是：

你為什麼要收這麼多樣本？

很多人的答案其實都很隨便。有人說因為學長姐以前差不多收這個數字，有人說 30 個看起來像個基本盤，也有人說時間大概只夠做到這裡。

這些都不是研究設計上的答案。

真正比較像樣的答案應該是：你的樣本數，是根據研究問題、效果量假設、顯著水準與統計檢定力，一起推回來的。
而這也是為什麼，只要你開始碰研究計畫申請、投稿，甚至只是想把研究做得像樣一點，你遲早都得面對統計檢定力（statistical power）。

如果你對這個概念還不熟，建議你先看前一篇：什麼是統計檢定力 (power)？
那篇是在講概念；這一篇開始，我們進入實作。

G*Power 是一套非常經典、免費，而且到現在還是很好用的統計檢定力軟體。它有 Windows 跟 Mac 版本。對研究生來說，它最大的價值不是「會按」，而是它會逼你把研究設計裡幾個本來常常講不清楚的判準，真的講清楚。

這系列的 G*Power 教學，是基於 UCLA 的教材架構，再加上我自己的改寫、練習題與說明。我希望你不是只會跟著按，而是真的建立樣本數估算的直覺。

什麼情況下，適合用這個 one-sample case？

我們先從最基本的情境開始：已知母群體（population）的平均值與標準差，從中抽出一些樣本，想檢驗這組樣本與母群體之間是否有顯著差異。

老實說，在真實研究裡，這種「母群體平均數與標準差都已知」的情況並不常見。大部分時候，我們研究的就是未知母群體。但教學上，這是一個很好的起點，因為它最單純，也最容易幫你抓到統計檢定力在做什麼。

如果你連這種最基本的情況都沒有直覺，後面碰到 independent t-test、ANOVA、regression，只會算得更亂。

一個很適合練手的例子：燈泡壽命

來看一個具體例子。

某家燈泡公司宣稱，他們家的燈泡平均壽命是 850 小時，標準差為 50 小時。某消費者保護團體對這個說法有懷疑，認為實際平均壽命可能只有 810 小時左右。

那問題就來了：

如果消保團體真的要做一次正式測試，他們到底要買多少顆燈泡回來測，才比較有把握偵測到這個差異？

這就是統計檢定力問題很典型的樣子。你不是先決定「我想測 10 顆」或「我懶得測太多」；你是先界定你想抓到多大的差異，再回頭算需要多少樣本。

G*Power 實作步驟

現在把 G*Power 打開，我們一步一步來。

步驟 1：選擇檢定類型

因為這裡是拿一組樣本去和已知母群體常數比較，所以在主畫面中設定：

Test family：t tests
Statistical test：Means: Difference from constant (one sample case)
Type of power analysis：A priori: Compute required sample size - given α, power, and effect size

這一步真正重要的地方是：
你先要知道自己在回答哪一種研究問題，軟體才有意義。
不要先打開 G*Power，才開始想哪個選項比較省樣本數。

步驟 2：設定統計參數

接下來設定幾個核心門檻：

Tail(s)：選 Two（雙尾檢定）
Power (1-β err prob)：設 0.9
α err prob：設 0.05

為什麼這樣設？

雙尾檢定：因為在這個例子裡，我們要檢驗的是「有沒有差異」，而不是一開始就只押某一個方向。
Power = 0.9：代表如果真實平均壽命大約就是 810 小時，則在這些設定下，我們有約 90% 的機率偵測到它和 850 小時之間的差異。
α = 0.05：這是最常見的顯著水準，意思是你願意承擔第一型錯誤的上限。

這一步不是在填表格而已。
你其實是在決定：你希望研究有多大的把握抓到真實差異，以及你願意承擔多少錯判風險。

如果你之後要申請大型研究計畫（grants），這些數字就更不是隨便填。審查委員不是只看你有沒有寫 sample size，而是會看你這些設定背後有沒有邏輯。

步驟 3：計算效果量（effect size）

這一步是很多人第一次用時最容易卡住的地方，但這個例子其實很好算。

在 GPower 裡，你可以按 Determine*，讓系統幫你算 effect size。填入下列數字：

Mean H0（虛無假設，也就是公司宣稱值）：850
Mean H1（你預期的實際值）：810
SD（標準差）：50

按下 Calculate 後，你會看到效果量 d = 0.8。

這個數值其實不神祕，它就是：

|850 - 810| / 50 = 0.8

也就是說，你假設的差異大小是 0.8 個標準差。

按下 Calculate and transfer to main window，把這個 effect size 帶回主畫面。

這一步在研究設計上的意思是：
你必須先對「你預期會看到多大的差異」有一個合理假設，樣本數才算得出來。

如果你對 effect size 沒感覺，可以回頭看這兩篇：

很多人不是不會按 G*Power，而是根本不知道 effect size 該怎麼想。這個問題不處理，後面樣本數算得再漂亮都沒意義。

步驟 4：得出所需樣本數

回到主畫面後，確認參數如下：

Tail: Two
Effect size d: 0.8
α: 0.05
Power: 0.9

然後按下右下角的 Calculate。

在 Output parameters 區塊中，你會看到：

Total sample size = 19

這代表的是：

如果真實平均壽命約為 810 小時，而且母群體標準差約為 50，在上述假設與設定下，抽樣 19 顆燈泡，大約有 90% 的檢定力可以偵測到它和 850 小時之間的差異。

這裡要特別提醒一句：
統計上比較精確的說法是「偵測到差異的能力」，不是直接寫成「證明廣告不實」。統計顯著是推論上的結果，不等於法律、商業或事實上的最終裁定。這個界線最好分清楚。

練習題

學會了基本操作，現在輪到你自己動手調參數，感受一下這些設定如何影響樣本數。請用 G*Power 算以下幾題：

將 power 改成 0.8 ，需要幾個燈泡？
power 0.9，單尾的情況下，需要幾個燈泡？
power 0.9，雙尾， alpha 改成 0.1 ，需要幾個燈泡？
從上面三個例子，你觀察到什麼？為什麼會有這樣的結果？

這幾題不要只是把答案按出來而已。你真正要練的是：

當你放寬 alpha、降低 power、或把雙尾改成單尾時，為什麼樣本數需求會跟著變？

如果你把這個直覺建立起來，後面在寫論文、回審稿意見、做 proposal 時，你就不會只是在「按軟體」，而是真的知道自己在做什麼。

延伸閱讀

如果你想把這個主題往下接，我建議順著看這幾篇：

小結

這一篇你不用急著背公式，你只要先抓住一件事就夠了：

樣本數不是先決定的，而是由研究假設、效果量、alpha 與 power 一起推回來的。

G*Power 只是工具；真正重要的是，你對這些參數背後代表的研究判準，有沒有想清楚。

暗微幽光

June 9, 2011 at 8:33 am

己知母群量數怎麼還用t test哩?

小嫩

June 9, 2011 at 7:38 pm

版主你好,不知可否在此文章發問關於stata的問題呢?
是這樣的,因為需求的關係,
想要將stata所輸出word檔案括號中的值,
換成是P值,請問這該怎麼去設定呢>"<

真的很感謝您

Chin-Hsi Lin

June 10, 2011 at 1:52 pm

p值不就有星號可以表示了嗎？真的想要的話，option 的部分就用 b(3) p(3) r2 replace nogaps replace

viven

July 3, 2011 at 10:10 am

請問步驟四的sd是要輸入實驗組的sd,還是對照組的.
謝謝

July 12, 2011 at 2:56 am

是母群體的sd
如果是實驗組與對照組，那就不適用於這個情況

G*Power 計算統計檢定力 (一)：單一樣本與已知母群體的基礎操作

什麼情況下，適合用這個 one-sample case？

一個很適合練手的例子：燈泡壽命

G*Power 實作步驟

步驟 1：選擇檢定類型

步驟 2：設定統計參數

步驟 3：計算效果量（effect size）

步驟 4：得出所需樣本數

練習題

延伸閱讀

小結

5 thoughts on “G*Power 計算統計檢定力 (一)：單一樣本與已知母群體的基礎操作”

Leave a Comment Cancel Reply