準確地分析才是重點
前文講:R-squared 不代表一切,似乎有點太令人驚訝,得到許多網友的反饋。很抱歉造成這些困擾,我應該把文章一次發完的。無奈最近有太多稿子在寫了,每篇文章都得分好幾次才能寫完。
R-squared 不代表一切,那究竟什麼重要呢?準確地分析才是重點。參考文獻這篇文章:Does Head Start make a difference?…
前文講:R-squared 不代表一切,似乎有點太令人驚訝,得到許多網友的反饋。很抱歉造成這些困擾,我應該把文章一次發完的。無奈最近有太多稿子在寫了,每篇文章都得分好幾次才能寫完。
R-squared 不代表一切,那究竟什麼重要呢?準確地分析才是重點。參考文獻這篇文章:Does Head Start make a difference?…
在 Stata 裡面,常用的 robust 的有兩種,一種是 robust regression,一種是 regression 裡加 robust 當作是 option。這兩種是完全不一樣的。
Robust regression (Stata 指令rreg) 主要是看 outlier (離群值) 的影響,因為你不想要 outlier 影響到你對 coefficients 的估計。
詳情可看 ucla 網站的介紹:http://www.ats.ucla.edu/stat/stata/dae/rreg.htm…
這是一個冷門的錯誤訊息,遇到的機會不太多,不過我偏偏就是遇到了。不管我跑簡單的指令像:mean A, over(B) 或是一般的 regress A B,都會出現這個錯誤的訊息,原來是 server 上的 Stata update 了,可是 update 不完全。
解決方式:
update all <br />update swap
理論上不用重開 Stata 與主機,不過如果都不行的話,就重開吧!
參考資料:
http://www.stata.com/statalist/archive/2010-06/msg00968.html…
Stata: 如何解決c(showbaselevels) undefined 錯誤 Read More »
最近副業作太兇了,所以來寫一篇文章重申一下我的本業。
這學期在 TA 博士班的統計課,這門課我聽了三遍了,每次聽都有新的收獲,我把我自己的想法寫下來,歡迎各位先進指教。
我每過一陣子就會遇到下面的情形:有人拿著他的資料來找我,花了很多解釋他的資料是長什麼樣子的,問我應該要怎麼分析。
遇到這種情形,我通常會問:你的研究問題是什麼?有什麼理論根據?不過似乎很多人對這樣的回答挺不滿意的,因為這回答並沒有解決他們的問題。但這樣的情形我也愛莫能助,因為有太多的分析方式了。
拿下面的資料作例子,我們來討論討論。如果我們有一個 longitudinal 的資料,追踨了18年,從0歲到18歲。我們最有興趣看的是學習成就與家庭年收入之間的關係,其它相關變數已經列入考量,就不再討論。
|
年 |
0 | 1 | 2 | 3 | … | 18 |
|
學習成就 |
||||||
|
家庭收入 |
在這種情形下,你要怎麼分析?如果你不思考這兩種之間的關係,不考慮文獻,只是思考兩者之間是否有因果關係,那有很多種方式。上課的學生就列出了不少。
1.…
寫了這麼多關於因素分析的文章 (詳見統計觀念整理) ,接下來當然就是在 Stata 上實作因素分析了。Stata 的 factor 指令就是作探索性因素分析的,如果要作驗證性因素分析,Stata 沒有內建功能,要另外安裝 cfa 這個套件才行。
factor 這個指令提供幾種因素分析的方式,包括:pf, pcf, ipf, 與 ml。ML 的優點可參考探索性因素分析的設計與使用 (一)。
pcf (principal-component factor) 通常使用在你想要儘可能地在一個 dimension 上解釋 items 的 variance。如果你覺得這些 items 都是 load 在同一個因素上,那 pcf 是你應該使用的。相對地,pf (principal factor) 通常使用在你有兩個或以上的因素。
如果可以跑 ml,就試著跑 ml。我通常會先跑 ml,如果有 Heywood Cases 的話再跑 pf (這不是很好的建議,應該要先看看為什麼有 Heywood cases)。另外,我一開始通常不會限制因素的個數,先看看特徵值與 scree plot。
factor item1-item24, ml
factor item1-item24, pf
接下來就是要先看看特徵值 (eigenvalue) 與 scree test 來判斷因素個數了。
依我這個不漂亮的數據跑 pf 的結果,特徵值大於 1 的有兩個。
接著是用 scree plot 來檢驗,在指令列直接輸入 screeplot 即可。
上圖其實有點難解讀,如果是要看 deep drop 的話,我會說有兩個。如果是要看哪個因素之後趨於平坦,我可能會說有4個因素。
如果你要用 parallel analysis,得先安裝套件 fapara。
net describe fapara, from(<a href="http://www.ats.ucla.edu/stat/stata/ado/analysis">http://www.ats.ucla.edu/stat/stata/ado/analysis</a>)…
Stata: 探索性因素分析 (一) Read More »