雖然在部落格分享了不少STATA的coding,我不是專門學統計的,只是對coding有點心得,知道使用一些統計而已。不過對於統計後面的理論,總是一知半解。這或許是由於我上的統計課多半是著重推衍的過程以及之後的應用,以至於這方面沒特別強調。另一部分是讀了不少journal article,也沒看有人特別說出在跑Anova或regression前作了一些模式假設檢定的步驟,也導致我從來沒注意這些細節。
問題於是就這麼發生了。前一陣子寫了一篇文章,送給department其它的faculty作peer review,希望得到一些意見之後去投稿。得到的意見大部分是滿正面的,不過指出了不夠嚴謹的地方,沒作迴歸分析與ANOVA模式假設檢定的部分,而reviewer認為從我的descriptive statistics的表格看起來,應該是個要注意的問題。
天啊!在paper上面寫 seems like homegeneity assumption of ANOVA haven’t been met. 這什麼意思?後來問google大神才發現:ANOVA和regression背後都有著不可忽視的assumption。
Assumption 1:Linearity 線性
簡單地說,這些統計方法都假定independent variable 與dependent variable呈現線性的關係。畫個圖就可以看出來了。下圖左就非線性關係,下圖右才是。
(來源:http://pareonline.net/getvn.asp?v=8&n=2)
Assumption 2: Independence of the errors
誤差是要獨立的。不過這好像跟time series regression比較有相關。資質駑鈍還沒看懂 @@
Assumption 3: Homoscedasticity 同質性
Homoscedasticity,有人用homogeneity of variance,”Homoscedasticity means that the variance of errors is the same across all levels of the IV” (中文不大會翻譯,大意是說variance of errors在每個independent variable是一樣的)。什麼是variance of errors呢?就是每一個觀察值到regression line的距離,而這個距離的差異在每個independent variable是相當的。要看圖才懂的話,可看這:http://davidmlane.com/hyperstat/A121947.html
Assumption 4: Normality of the error distribution 錯誤呈現常態分配
其實很多統計的基本假設都是當sample達到一定數量,會呈現常態分配。
如果你要看stata的例子,可以看這篇:http://www.ats.ucla.edu/stat/Stata/Library/homvar.htm
至於這些東西在Stata怎麼處理,我還在問google大神中…..
中文的與SAS的檢定方法可參考LCChien的部落格:http://sugiclub.blogspot.com/2007/06/solutions-to-violations-of-assumptions.html
英文的可參考這幾個連結:
Testing the assumptions of linear regressionFour Assumptions Of Multiple Regression That Researchers Should Always Test
我只是拋磚引玉加上作筆記,有人有更好的解釋、例子說明的麻煩舉個手啊!
Reference
Osborne, Jason & Elaine Waters (2002). Four assumptions of multiple regression that researchers should always test. Practical Assessment, Research & Evaluation, 8(2). Retrieved November 11, 2009 from http://PAREonline.net/getvn.asp?v=8&n=2 .
恭賀改版!
不過話說回來,怎麼不用內嵌方式留言呢?
很簡單,因為我不會。請sango教我吧!
請林教授參考這篇:http://katejane12.blogspot.com/2009/04/blogger-embedded-comment-form.html
一般來說應該是用後台更改選項就可以了,但我看林教授的版型也是客製化套用的,怕有時出不來,花點小功夫調整一下就可以了。
好像搞定了耶!感謝Sango大指點!
林教授客氣了~ ^^
我覺得這篇寫得很明白:
http://media.wiley.com/product_data/excerpt/59/04714550/0471455059.pdf
不過它是基於 SAS 來運算. 參考參考.
太好了,趕緊收下!謝謝你的分享!
請問是這個變異數同質性(homogeneity of variance)嗎?
二母數的假設考驗中,假定兩樣本的兩母群變異數是相同的,且呈現常態分配。故進行t考驗時得先進行F考驗兩母體的變異數是否同質。
Assumption 2: Independence of the errors
意思是前一個的誤差會不會影響後一個誤差,通常橫斷面資料不會有這樣的問題,而在時間序列資料,顯然後一個時間的數據會受前一個時間的數據的影響,舉例來說,今天的股票受昨天股票的影響,這就違反誤差獨立的假設