統計分析

探索性因素分析的設計與使用 (二)

(承前文 探索性因素分析的設計與使用 (一) )
選擇因素個數
這點作者說的很好,要決定因素個數,就是在最精簡模型 (也就是最少的因素) 與有理 (也就是有足夠的因素能解釋這些因子) 之間作平衡
傳統上來說,方法學家認為指明過少的因素個數比指明過多的因素個數還要來得嚴重,因為當因素過少時,本應該 load 在 B 因素的因子,因為模型並沒有納入 B 因素,變成錯誤地 load 在包含在模型的 A 因素。這當然會造成扭曲的結果,並影響到後來的轉軸與解讀。
相對地,選擇過多的因素會導致在轉軸時,主要因素正確呈現出來,但一些次要因素並沒有因子 load 在其上或是僅有單一因子。然而,選擇過多的因素仍是要避免的。
因為這些原因,許多方法學家就在探討如何找出最適合的因素數,其中一個非常有名的方法是 Kaiser criterion,這個準則就是看有幾個特徵值 (eigenvalues) 是否大於 1,並用這個數值來決定因素的數量。雖然這個方法看似簡單、客觀,但其實存在著一些問題 (詳細討論請見原文章),特別是經常會採取過多的因素數 (有時候是採取過少的因素數)。
第二種方法就是 scree test,也就是畫出相關矩陣的特徵值,並看在哪一個點之後有明顯的下降。在這個下降前有幾個特徵值決定了因素數。這種方式也受到不少批評,特別是它的主觀性。此外,有時候得到的圖並沒有明顯的下降。
第三種方法是平行分析 (parallel analysis),簡單地說,就是比較你從樣本裡得到的特徵值與從隨機資料產生的特徵值 (詳情請讀文章),模擬分析的結果認為平行分析所提供的結果還不錯,雖然統計軟體並未列入這種分析法。

註:parallel analysis 在 SAS 和 SPSS 中的使用,可參考:https://people.ok.ubc.ca/brioconn/nfactors/nfactors.html…

探索性因素分析的設計與使用 (二) Read More »

探索性因素分析的設計與使用 (一)

許多人的研究通常都會用問卷,而使用問卷時,常常為了要減少變數的數量,而會採用因素分析 (不懂的請參考:因素分析(Factor Analysis) ),特別是探索性因素分析 (請參考探索性與驗證性因素分析)。

探索性因素分析有其本身的限制,有的研究利用模擬數據質疑探索性因素分析並不能正確地表現出資料之間的結構,有的研究則著重於分析探索性因素分析適合與不適合使用的情形。Fabrigar, Wegener, MacCallm, and Strahan (1999) 這篇在心理學上非常有名的文章,就是在討論探索性因素分析的適用情形。我在閱讀之後收獲不少,因此就將這篇文章的重點節錄下來跟大家分享。

作者提到,在進行探素性因分析前,有五個需要考慮到的地方。1) 什麼變數要納入,sample的大小與特性;2) 要決定探索性因素分析是不是最適合的分析方式;3) 如果探索性因素分析是適合的,那接下來要決定有什麼方式來 fit the model.…

探索性因素分析的設計與使用 (一) Read More »

Stata: 如何作層次迴歸分析(hierarchical regression)?

Stata 並沒有內建層次分析 (hierarchial regression) 的指令(註),所以要先進行安裝

net describe hireg, from(http://fmwww.bc.edu/RePEc/bocode/h) <br />net install hireg

之後如果要執行指令,就像下方一樣:

hireg dv (a)(b) (c) (d) ,nomiss

dv 是 dependent variable,後方一個()就是一個 model,所以有四個表示有四個models。跑完之後,Stata 會告訴你這些 models之間是不是有顯著差異,以及 R-square 的變化。

1.png

註:如果是要作 stepwise regression 的話,可以用Stata 內建的 stepwise 指令來使用。雖然裡面有 forward 和 backward hierarchial 的選項,但畢竟沒 hireg 這個指令好用。

Stata: 如何作層次迴歸分析(hierarchical regression)? Read More »

什麼是層次迴歸分析 (hierarchical regression)?

什麼是層次迴歸 Hierarchical Regression?

當你搜尋「層次迴歸」時,維基百科說 Hierarchical linear modeling,Stata 說 Swamy-Arora estimator,統計書又說 hierarchical regression 是一種變數分批進入的方法。這些名詞到底有什麼關係?為什麼會搞混?

簡單來說:這其實是兩種完全不同的東西,只是中文都用了「層次」這個詞。

層次迴歸 = 變數分批進入模型

想像你是一位教育研究者,想預測學生的學業表現。你手上有兩類變數:

  • 控制變數:學生的家庭收入、父母教育程度、性別
  • 研究變數:學生的學習動機

你不希望學習動機的「功勞」被控制變數稀釋,或者想先看控制變數能解釋多少變異,再加入研究變數看看能增加多少解釋力。

這時候你用的是 hierarchical regression——把變數分「階」放入模型,一次一批:

第一階模型:成績 ~ 家庭收入 + 父母教育 + 性別
第二階模型:成績 ~ 家庭收入 + 父母教育 + 性別 + 學習動機

比較:ΔR² 就是學習動機的獨立貢獻

這裡的「層次」指的是變數進入的順序層次,不是資料的結構層次。

用 SPSS 操作時,你會在「Block」欄位分批放入變數,就是這個概念。

HLM = 資料本身有巢套結構

現在換個場景:你想研究學校資源對學生成績的影響。你的資料長這樣:

  • 50 所學校,每所學校 30 位學生
  • 學生(Level 1)巢套在學校(Level 2)之內

這時候問題來了:

  • 同一所學校的學生成績會比較接近(共同的老師、校風、設備)
  • 這違反了一般迴歸「殘差獨立」的假設
  • 如果你跑一般迴歸,標準誤會被低估,容易假性顯著

這時候你需要 Hierarchical Linear Modeling (HLM),多層次線性模式。

HLM 的「層次」指的是資料的階層結構

Level 1: 學生 i 在學校 j 的成績
Level 2: 學校 j 的平均資源水平

學生成績_ij = γ₀₀ + γ₀₁(學校資源_j) + u₀_j + ε_ij

這裡處理的是資料依賴性,不是變數順序。

一張圖看懂如何選擇

決策流程圖:資料有階層結構嗎?

這張圖總結了選擇邏輯:

問題使用方法
想控制變數進入順序,看 incremental R²?層次迴歸
資料有巢套結構(學生→班級→學校)?HLM
只是單純預測,沒有階層也沒有分批需求?一般多元迴歸

常見誤區

「層次迴歸就是多層次模式」

– 錯。前者是變數管理策略,後者是處理資料依賴的統計方法。

「跑 HLM 比較高級,所以我應該用 HLM」

– 錯。如果資料沒有巢套結構,跑 HLM 是多餘的,甚至有過度參數化的風險。

「分批放變數一定要用 SPSS 的 Block 功能」

– 不一定。你可以手動跑多個模型比較 ΔR²,只是 Block 功能幫你省時間。

站內相關文章

若想深入了解,可以參考以下文章:

  • [多層次線性分析方法—HLM軟體應用](/?p=52):HLM6/7

什麼是層次迴歸分析 (hierarchical regression)? Read More »

Scroll to Top