統計分析 - 研究生2.0

主成份分析與因素分析

Leave a Comment / 統計分析 / By researcher20

這一篇是因素分析的第三篇，前兩篇為：因素分析 (factor analysis) 和探索性與驗證性因素分析。

主成份分析 (principal component analysis，簡稱PCA) 是在因素分析裡面常看到的，但這個名詞常被誤用、混用，而且有時候統計軟體裡面所用的詞彙也不一致，造成許多困擾。我也困擾了很久，這篇是防健忘筆記，有誤請更正。

嚴格地說，主成份分析 (PCA) 與因素分析是利用不同的方法來減少變數量 (Jolliffe, 2010)，但很多教科書都把這當作是 factor analysis 的一個special case，統計軟體也把 PCA 當作是一個 option，造成了很多誤會。

PCA 的主要目的是將 p個變數，縮減到 m個主成份(principal components)，在這同時儘量保留p個變數的variation。如果這m個主成份可以直接解讀，那就更好了。

因素分析的主要目的也是縮減變數，但採用的方式不一樣。簡單地說，因素分析的概念是：p個變數可以用m個factor所組成的線性關係表示。我不愛寫公式，不過真的要寫簡單的話：

變數1 = b1* 因素1 + b2*因素2 + b3*因素3

這個model就像是一般的regression model一樣，相較之下，PCA就沒有一個explicit model。所以這就看出 PCA 與因素分析的不同了：因素分析有個model，而 PCA 並沒有一個explicit model。

如果你懂得 PCA 與因素分析背後的數學運算，你可能還會發現到另外一個不同點。Jolliffe (2010, p158) 在書中提到：PCA 與因素分析都是呈現convariance matrix (或correlation matrix) 的一部分，但 PCA 著重在對角線的元素，而 factor analysis 則著重在非對角線的元素上。

另一個不同點是會得出幾個主成份或是因素 (Jolliffe, 2010, p159)。根據 PCA 的算法，如果其中有一個變數獨立於其它變數 (i.e.,…

主成份分析與因素分析 Read More »

探索性與驗證性因素分析

Leave a Comment / 統計分析 / By researcher20

這篇是承前一篇因素分析 (factor analysis) ，有不懂的先閱讀。。

簡單地說，因素分析是將許多變量簡化成較少的概念 (construct)，而在因素分析裡，常用的兩種方法是：探索性因素分析 (exploratory factor analysis, 簡稱EFA) 與驗證性因素分析 (confirmatory factor analysis，簡稱CFA)。

探索性因素分析 (EFA)

除了上述的重點以外，探索性因素分析還有一個很重要的假設是：這些 items (也就是x1-x3，亦有人稱為indicators) 是可以跟任何因素 (factors，也就是???)…

探索性與驗證性因素分析 Read More »

Stata: 輸出frequency表格

1 Comment / 統計分析 / By researcher20

有時候除了 summary table，你還想要看次數分配，有沒有方法大量輸出次數分配呢？答案當然是肯定的。

這次用系統內建的資料庫。

sysuse auto

之後一樣可以用 esttab 的指令：

estpost tab foreign <br />esttab using 12333.csv,…

Stata: 輸出frequency表格 Read More »

Stata: 切割字串

1 Comment / 統計分析 / By researcher20

今天拿到一個要分析的問卷，不看不知道，一看快昏倒，裡面有一題問卷的回答像下面一樣：

變數裡面全部是 string，這也就算了。一個 string 裡面包含了五個問題，每個問題有五個選項，這還讓不讓人活啊？這樣是沒辦法跑任何分析的，得先將五個問題分開，然後再將五個答案分別 code 成 1-5，這才有辦法作分析。

雖說有萬般的不幸，但這資料裡面有個好處：格式差不多。像下面一樣：

問題.=…

Stata: 切割字串 Read More »

Stata: 產生累積次數分配

2 Comments / 統計分析 / By researcher20

網友問到：「哈囉,想請教版主有關STATA的問題，如果我想產生一個新變數，而這個變數為另一個變數的累積次數分配,應該怎麼寫此一指令呢?用ta X(變數) 可以得知變數分佈情況,後學所學的指令可能不足,故想請教版主是否知道? 謝謝」

首先，先使用一個資料庫：

sysuse auto, clear

tab 一下結果：

之後先產生次數分配：

bysort rep78: gen freq = _N

檢查一下結果：

list rep78 freq in 1/20

這還只是該值的頻率而已，還不是累積次數分配。如果要作累積次數分配，還得加工一下。

by rep78: gen cumfreq = _N if _n == 1

這一行是說，rep78 每一個值的第一筆資料，cumfreq 的值都設為 rep78那個值的次數。如果是該值的第二筆，那就會設成missing。結果如下圖。

接著下一步，就是把這些值加起來。

replace cumfreq = sum(cumfreq) if !mi(rep78)…

Stata: 產生累積次數分配 Read More »