雖然在部落格分享了不少STATA的coding,我不是專門學統計的,只是對coding有點心得,知道使用一些統計而已。不過對於統計後面的理論,總是一知半解。這或許是由於我上的統計課多半是著重推衍的過程以及之後的應用,以至於這方面沒特別強調。另一部分是讀了不少journal article,也沒看有人特別說出在跑Anova或regression前作了一些模式假設檢定的步驟,也導致我從來沒注意這些細節。
問題於是就這麼發生了。前一陣子寫了一篇文章,送給department其它的faculty作peer review,希望得到一些意見之後去投稿。得到的意見大部分是滿正面的,不過指出了不夠嚴謹的地方,沒作迴歸分析與ANOVA模式假設檢定的部分,而reviewer認為從我的descriptive statistics的表格看起來,應該是個要注意的問題。
天啊!在paper上面寫 seems like homegeneity assumption of ANOVA haven’t been met. 這什麼意思?後來問google大神才發現:ANOVA和regression背後都有著不可忽視的assumption。
Assumption 1:Linearity 線性
簡單地說,這些統計方法都假定independent variable 與dependent variable呈現線性的關係。畫個圖就可以看出來了。下圖左就非線性關係,下圖右才是。
(來源:http://pareonline.net/getvn.asp?v=8&n=2)
Assumption 2: Independence of the errors
誤差是要獨立的。不過這好像跟time series regression比較有相關。資質駑鈍還沒看懂 @@
Assumption 3: Homoscedasticity 同質性
Homoscedasticity,有人用homogeneity of variance,”Homoscedasticity means that the variance of errors is the same across all levels of the IV” (中文不大會翻譯,大意是說variance of errors在每個independent variable是一樣的)。什麼是variance of errors呢?就是每一個觀察值到regression line的距離,而這個距離的差異在每個independent variable是相當的。要看圖才懂的話,可看這:http://davidmlane.com/hyperstat/A121947.html
Assumption 4: Normality of the error distribution 錯誤呈現常態分配
其實很多統計的基本假設都是當sample達到一定數量,會呈現常態分配。
如果你要看stata的例子,可以看這篇:http://www.ats.ucla.edu/stat/Stata/Library/homvar.htm
至於這些東西在Stata怎麼處理,我還在問google大神中…..
中文的與SAS的檢定方法可參考LCChien的部落格:http://sugiclub.blogspot.com/2007/06/solutions-to-violations-of-assumptions.html
英文的可參考這幾個連結:
Testing the assumptions of linear regressionFour Assumptions Of Multiple Regression That Researchers Should Always Test
我只是拋磚引玉加上作筆記,有人有更好的解釋、例子說明的麻煩舉個手啊!
Reference
Osborne, Jason & Elaine Waters (2002). Four assumptions of multiple regression that researchers should always test. Practical Assessment, Research & Evaluation, 8(2). Retrieved November 11, 2009 from http://PAREonline.net/getvn.asp?v=8&n=2 .