主成份分析與因素分析
這一篇是因素分析的第三篇,前兩篇為:因素分析 (factor analysis) 和探索性與驗證性因素分析。
主成份分析 (principal component analysis,簡稱PCA) 是在因素分析裡面常看到的,但這個名詞常被誤用、混用,而且有時候統計軟體裡面所用的詞彙也不一致,造成許多困擾。我也困擾了很久,這篇是防健忘筆記,有誤請更正。
嚴格地說,主成份分析 (PCA) 與因素分析是利用不同的方法來減少變數量 (Jolliffe, 2010),但很多教科書都把這當作是 factor analysis 的一個special case,統計軟體也把 PCA 當作是一個 option,造成了很多誤會。
PCA 的主要目的是將 p個變數,縮減到 m個主成份(principal components),在這同時儘量保留p個變數的variation。如果這m個主成份可以直接解讀,那就更好了。
因素分析的主要目的也是縮減變數,但採用的方式不一樣。簡單地說,因素分析的概念是:p個變數可以用m個factor所組成的線性關係表示。我不愛寫公式,不過真的要寫簡單的話:
變數1 = b1* 因素1 + b2*因素2 + b3*因素3
這個model就像是一般的regression model一樣,相較之下,PCA就沒有一個explicit model。所以這就看出 PCA 與因素分析的不同了:因素分析有個model,而 PCA 並沒有一個explicit model。
如果你懂得 PCA 與因素分析背後的數學運算,你可能還會發現到另外一個不同點。Jolliffe (2010, p158) 在書中提到:PCA 與因素分析都是呈現convariance matrix (或correlation matrix) 的一部分,但 PCA 著重在對角線的元素,而 factor analysis 則著重在非對角線的元素上。
另一個不同點是會得出幾個主成份或是因素 (Jolliffe, 2010, p159)。根據 PCA 的算法,如果其中有一個變數獨立於其它變數 (i.e.,…
