統計分析

Stata: 如何解決c(showbaselevels) undefined 錯誤

這是一個冷門的錯誤訊息,遇到的機會不太多,不過我偏偏就是遇到了。不管我跑簡單的指令像:mean A, over(B) 或是一般的 regress A B,都會出現這個錯誤的訊息,原來是 server 上的 Stata update 了,可是 update 不完全。

解決方式:

update all <br />update swap

理論上不用重開 Stata 與主機,不過如果都不行的話,就重開吧!

參考資料:

http://www.stata.com/statalist/archive/2010-06/msg00968.html

Stata: 如何解決c(showbaselevels) undefined 錯誤 Read More »

思考你的分析

最近副業作太兇了,所以來寫一篇文章重申一下我的本業。

這學期在 TA 博士班的統計課,這門課我聽了三遍了,每次聽都有新的收獲,我把我自己的想法寫下來,歡迎各位先進指教。

我每過一陣子就會遇到下面的情形:有人拿著他的資料來找我,花了很多解釋他的資料是長什麼樣子的,問我應該要怎麼分析

遇到這種情形,我通常會問:你的研究問題是什麼?有什麼理論根據?不過似乎很多人對這樣的回答挺不滿意的,因為這回答並沒有解決他們的問題。但這樣的情形我也愛莫能助,因為有太多的分析方式了。

拿下面的資料作例子,我們來討論討論。如果我們有一個 longitudinal 的資料,追踨了18年,從0歲到18歲。我們最有興趣看的是學習成就與家庭年收入之間的關係,其它相關變數已經列入考量,就不再討論。

0 1 2 3 18

學習成就

           

家庭收入

           

在這種情形下,你要怎麼分析?如果你不思考這兩種之間的關係,不考慮文獻,只是思考兩者之間是否有因果關係,那有很多種方式。上課的學生就列出了不少。

1.…

思考你的分析 Read More »

Stata: 探索性因素分析 (一)

寫了這麼多關於因素分析的文章 (詳見統計觀念整理) ,接下來當然就是在 Stata 上實作因素分析了。Stata  的 factor 指令就是作探索性因素分析的,如果要作驗證性因素分析,Stata 沒有內建功能,要另外安裝 cfa 這個套件才行。

factor 這個指令提供幾種因素分析的方式,包括:pf, pcf, ipf, 與 ml。ML 的優點可參考探索性因素分析的設計與使用 (一)

pcf (principal-component factor) 通常使用在你想要儘可能地在一個 dimension 上解釋 items 的 variance如果你覺得這些 items 都是 load 在同一個因素上,那 pcf 是你應該使用的。相對地,pf (principal factor) 通常使用在你有兩個或以上的因素。

如果可以跑 ml,就試著跑 ml。我通常會先跑 ml,如果有 Heywood Cases 的話再跑 pf (這不是很好的建議,應該要先看看為什麼有 Heywood cases)。另外,我一開始通常不會限制因素的個數,先看看特徵值與 scree plot。

factor item1-item24, ml
factor item1-item24, pf

接下來就是要先看看特徵值 (eigenvalue) 與 scree test 來判斷因素個數了。

依我這個不漂亮的數據跑 pf 的結果,特徵值大於 1 的有兩個。

1.png

接著是用 scree plot 來檢驗,在指令列直接輸入 screeplot 即可。

2.png

上圖其實有點難解讀,如果是要看 deep drop 的話,我會說有兩個。如果是要看哪個因素之後趨於平坦,我可能會說有4個因素。

如果你要用 parallel analysis,得先安裝套件 fapara。

net describe fapara, from(<a href="http://www.ats.ucla.edu/stat/stata/ado/analysis">http://www.ats.ucla.edu/stat/stata/ado/analysis</a>)

Stata: 探索性因素分析 (一) Read More »

R-squared 不代表一切

在許多心理學的研究都特別強調 R-squared (或 R2)的重要,這無可厚非也可以理解,因為從定義上來說,R2 告訴你在你的模型裡,有多少的 variance 是可以被你的自變數解釋的。

然而,事情並不是那麼簡單,journal reviewers 並不會看到你有很高的 R2 就欣然地收下你的文章,不要求你作任何修改。我有一個老師更是直接說:R2  is (almost) nothing。

有什麼例子可以證明這個觀點呢?綠角財經筆記有一篇文章 Stupid Data Miner Tricks讀後感—-不斷尋求相關性的危害,提到了個有趣的例子:孟加拉的奶油產量與美國股市指數呈現高度相關,R2高達0.75。

很驚訝,是不是?還有更驚訝的!美國與孟加拉的奶油總產量,美國的起司產量與美國和孟加拉的羊隻總數,這三個數字與標普500做迴歸,發現 R2 高達0.99。這樣,你還相信 R2 嗎?

我不是要大家不相信這個數據,而是別被很高的R2 嚇著了。還需要具體一點的例子嗎?假設你有前、後測,實驗組與控制組,如果你跑第一個模型:用迴歸分析,前測與treatment dummy為自變量;與第二個模型:用迴歸分析,依變量是後測減前測,自變量是treatment dummy,你會發現第一個模型的 R2 比第二個模型高許多。你可以說第一個模型比第二個模型好嗎?

那到底什麼才重要呢?準確地預測 (precise estimation) 才是最重要的。至於如何準確地預測,這就是另外一個問題了。

相關閱讀:

如何讓你的p value significant??

R-squared 不代表一切 Read More »

Scroll to Top