統計分析

hierarchical linear models

什麼是階層線性模式 (hierarchical linear modeling)?

階層線性模式 (hierarchical linear modeling,簡稱為HLM) 或是多層次分析 (multi-level analysis) 是近一、二十年來開始流行的統計方法。這種統計方法多半使用於教育研究,但後來也漸漸普及到社會學研究與其它領域。

為什麼除了迴歸分析之外,還要有階層線性模式呢?最典型的例子還是從教育中來看。如果你要看學生的學習成就,但是如果你有很多班級的話,每個班級的老師不同,這就衍生了問題學生的學習成就可能是受到教師或班級影響,所以我們想要解決缺乏獨立性 (lack of independence) 的問題

可以具體說說有什麼變數在班級裡面會影響學生成就?這可說的太多了。比如說班級人數,男女生比例,貧窮學生比例。此外,老師當然也是重要的因素,比如說老師的經驗,老師的教育水準,老師的教學法等等。這樣一列下來,如果你想要列出一大堆變數來控制,似乎就顯得有點不切實際。更重要的是:你不可能控制所有的不同

從上面的例子來說,你就很容易可以看出來階層性關係。如果學生是第一層 (底層) 的話,班級就是第二層 (上層)。由於這個層次有階層性,所以在統計時就要列入考量,這也就是階層線性模式 的最主要目的

另外一個利用階層線性模式的典型列子就是重複測量 (repeated measures)。如果一個人進行測量數次,那每次測量之間應該存在著高度相關性。換言之,測量結果並不是獨立的,因為你第一次測量高,你後面測量的結果是很高的可能性非常大。依照這種思維,其實你不能想像出:這也是另外一個階層線性模式。第一層 (底層),是每個人在不同時間的測量,而第二層則是個人如果性別會影響到測量結果,那性別理論上會影響到所有的測量結果,也就是所有第一層的都會受到影響。這就是要用 HLM 的原因。

如果你不熟悉 HLM 或是 multilevel linear models,也有可能在你的領域使用 mixed-effects models 、 random-effects models 或random-coefficient regression models 等其它名詞。

HLM 的優點還不只於此,遠比我說的複雜多,這只是個簡單的介紹而已。如果你對這有興趣,可以參考下面這本書。這本書可說是 HLM 研究裡面的聖經,絕好的參考書,但是裡面的數學有點複雜,所以有點不好讀。建議有一定統計基礎再看

我不知道有什麼比較基礎 HLM 的書籍,如果大家有知道的,也歡迎推薦。

Hierarchical Linear Models: Applications and Data Analysis Methods (Advanced Quantitative Techniques in the Social Sciences)

參考文獻

Raudenbush, S.…

什麼是階層線性模式 (hierarchical linear modeling)? Read More »

Stata: 顯示完整變數值,而非使用科學記號

如果你在處理資料時,裡面有學生id,像是 80070394,甚至更長如: 5140712902,如果你直接 list 出來,會出現像這樣的情況:

1.png

這些值沒顯示完整數值,而是用科學記號,像是 8.0e+07,或是 1.1e+09。如果你要知道完整數值,還得到 data editor 裡面一筆一筆去看,這會浪費不少時間

2.png

要解決這樣的問題,就得從資料格式上來處理。至於為什麼會出現這樣的問題,這跟 output width 有關,詳情請參閱 Stata help 的 format。

首先來瞧瞧左方 variable list 是怎麼顯示的。studentid 的記號是 long %8.0f,ssid 是 double %8.0f ,long 與 double 是兩種不同的儲存格式,這有興趣請參考 datatypes 得到更多資訊,但這裡不影響。有影響的是 %8.0f。在小數點前的數字指的是要顯示幾位數,小數點後的數字指的是要顯示小數點後幾位,f 指的是 fixed format。依照這個例子來說,就是顯示 8 位數,不顯示小數點以後的位數。

3.png

所以這裡要作的很簡單,就是將顯示的位數加大。我的程式如下:

format studentid %9.0f <br />format ssid %12.0f

列出結果就正常了:

4.png

參考資料
http://www.ats.ucla.edu/stat/stata/faq/longid.htm

Stata: 顯示完整變數值,而非使用科學記號 Read More »

因素負荷量 (factor loadings) 與特徵值 (eigenvalues)

作因素分析時,常會碰到兩個讓人頭痛的名詞:因素負荷量 (factor loadings)特徵值 (eigenvalues)。加上 scree plot 的判斷,很多人在這幾個步驟都卡住了。這篇的目標很簡單:不講太多數學,把這幾個概念說清楚,以及它們實際上在回答什麼問題。

看懂因素分析:你其實只要過4關

特徵值 (Eigenvalues):這個因素值不值得留?

特徵值(有時也稱為 characteristic roots)回答的是一個問題:這個因素能代表多少個變數的資訊?

以 10 個變數為例,所有因素的特徵值加總等於 10。如果某個因素的特徵值是 0.5,代表它只解釋了半個變數的資訊量——留下這個因素,對精簡變數結構的幫助非常有限。

常見的判斷準則(rule of thumb)是:特徵值 < 1 的因素通常可以刪除(Harman, 1976)。背後的邏輯是,若特徵值小於 1,代表這個因素解釋的資訊量連一個原始變數都不如,自然沒有保留的必要。這個標準在 EFA(探索性因素分析)初步判斷時最常使用,大部分期刊也接受。不過它並非最嚴謹的方式,最好搭配下面的 scree plot 和理論意義一起判斷。

除了看特徵值,也可以觀察每個因素解釋的 % of variance,了解所有因素加總能解釋多少總變異量。

Scree Plot:到底該留幾個因素?

Scree Plot 是另一個判斷因素數量的工具。它把每個因素的特徵值由高到低畫成折線圖,你要找的是線條突然變平的轉折點——轉折點之前的因素留下,之後的捨棄。

轉折點後,每多留一個因素,能新增的解釋量已經非常有限,留下來只會讓模型變複雜,不會更清楚。

需要注意的是,Scree Plot 有一定的主觀性。如果折線是慢慢變平而非突然斷下去,不同人看到的轉折點可能不一樣。這時候不要硬選,應回頭對照理論:這份量表在概念上應該測幾個維度?特徵值準則、scree plot 和理論意義三者一起看,是最穩的做法。

因素負荷量 (Factor Loadings):這個因素代表什麼?

確定保留幾個因素之後,下一步是理解每個因素的意義——靠的就是因素負荷量

因素負荷量是個別變數與因素之間的相關程度(未轉軸前),數值介於 -1 到 1 之間,類似 Pearson 相關係數。因素負荷量的平方,就是該因素能解釋這個變數多少的 variance。例如負荷量為 0.4,代表能解釋 16% 的變異量。

依照 Hair et al.…

因素負荷量 (factor loadings) 與特徵值 (eigenvalues) Read More »

主成份分析與因素分析

這一篇是因素分析的第三篇,前兩篇為:因素分析 (factor analysis)探索性與驗證性因素分析

主成份分析 (principal component analysis,簡稱PCA) 是在因素分析裡面常看到的,但這個名詞常被誤用、混用,而且有時候統計軟體裡面所用的詞彙也不一致,造成許多困擾。我也困擾了很久,這篇是防健忘筆記,有誤請更正

嚴格地說,主成份分析 (PCA) 與因素分析是利用不同的方法來減少變數量 (Jolliffe, 2010),但很多教科書都把這當作是 factor analysis 的一個special case,統計軟體也把 PCA 當作是一個 option,造成了很多誤會。

PCA 的主要目的是將 p個變數,縮減到 m個主成份(principal components),在這同時儘量保留p個變數的variation。如果這m個主成份可以直接解讀,那就更好了。

因素分析的主要目的也是縮減變數,但採用的方式不一樣。簡單地說,因素分析的概念是:p個變數可以用m個factor所組成的線性關係表示。我不愛寫公式,不過真的要寫簡單的話:

變數1 = b1* 因素1 + b2*因素2 + b3*因素3

這個model就像是一般的regression model一樣,相較之下,PCA就沒有一個explicit model。所以這就看出 PCA 與因素分析的不同了:因素分析有個model,而 PCA 並沒有一個explicit model

如果你懂得 PCA 與因素分析背後的數學運算,你可能還會發現到另外一個不同點。Jolliffe (2010, p158) 在書中提到:PCA 與因素分析都是呈現convariance matrix (或correlation matrix) 的一部分,但 PCA 著重在對角線的元素,而 factor analysis 則著重在非對角線的元素上

另一個不同點是會得出幾個主成份或是因素  (Jolliffe, 2010, p159)。根據 PCA 的算法,如果其中有一個變數獨立於其它變數 (i.e.,…

主成份分析與因素分析 Read More »

Scroll to Top