處理資料缺失的方法有很多種,下面列出常用的幾種辦法:
Listwise deletion
listwise deletion 就是把分析模式中的變數,沒有資料的都移除。這種方式的好處是:1) 各種統計資料分析都適用;2) 不需要特殊的方式處理資料缺失。以目前的統計軟體來說,都會自動採用listwise deletion.
這究竟是不是個好方法呢?
如果原始sample是MCAR,那listwise deletion 等於是隨機從sample之中,再抽取一個sub sample,你的分析還是unbiased。雖然你subsample跑出來的standard error會比原始sample跑出來的standard error 還大 (假設原始sample沒資料缺失的話),但你至少不用擔心你的結果。
如果原始sample是MAR,那採用listwise deletion之後,你的結果仍會是沒問題的。舉例來說,如果你的DV是一年儲蓄多少 (saving),你的IV是一年賺多少(income),但是income有40% missing,而income的missing與另外一個IV: 受教程度(schooling)有關係。只要把這兩個IV放進分析模式,而且income的missing與DV不相關,你的分析就是unbiased的。
這樣的原理是因為利用regression的分析模式,如果你不同比例地在IV分層抽樣 (disproportionate stratified sampling on the independent variable),這並不會影響到你的結果。所以你IV有missing,其實就相當於針對IV作了一次sub sampling。所以只要你沒有違反迴分析的假設,並且你的IV的missing與DV無關,在迴歸分析時用listwise deletion 就沒有問題。
Pairwise deletion
Pairwise deletion 又稱為available case analysis,顧名思義,就是用所有有的資料來進行分析。舉例來說,你有3個變數a, b, c。你總共有1000筆資料,a這個變數有4筆沒資料,b變數有8筆沒資料,c變數有3筆沒資料,而這些沒資料的人不重複 (在現實情況下,有可能沒填a的也沒填b。這裡為了說明方便,就假設沒資料的人不重複)。
如果你要看a與b之間的關係,那你會有1000-4-8=988筆資料;如果你要看b與c之間的關係,你會有1000-8-3=989筆資料;如果你要看a、b、c三者之間的關係,你會有1000-4-8-3=985筆資料。
這跟listwise deletion有什麼不同?如果你最終要分析的是a、b、c三者之間的關係,那在分析a與b之間的關係時,如果採用listwise deletion,你只會採用所有資料都有的,也就是用1000-4-8-3=985筆,而不是用a與b的所有資料988筆。
如果你的資料是MCAR,那你的資料分析不會有偏差;但如果你的資料是MAR,你的結果就會有所偏頗。由於你分析的時候你的樣本數會有所不同,這會造成你計算standard errors的時候出現誤差,沒有一組數字可以讓你算所有分析模式的standard errors,你的分析也容易不一致。
Dummy variable adjustment
dummy variable adjustment 的方式其實是用non-missing的平均值補上缺失資料 (所以也叫mean substitution),這種方法雖然看起來簡單又符合直覺,但在simulation study中作出來的結果則是誤差太大。
Imputation
很多處理資料缺失的辦法,都屬於imputation (資料插補) 這個類別。這種作法的基本概念就是:將missing data用「合理」的數字補上,而合理的數字就是資料插補 (imputation)的結果。
至於什麼是合理的猜測,這留待後面再說。
最後還是要推一下Paul Allison的這本Missing data:
老师,请问你在KUL读的是那个PHD program? 小弟想向您取取经。
KUL?這是哪裡?我是在美國讀的博士的
老師請問
遺漏值在資料設訂時已設為99,還需要在跑pairwise or listwise 嗎⋯⋯
謝謝
看你用什麼分析軟體
先看一下你的敘述統計,軟體是不是把99當成missing
如果沒有的話,還是要處理一下的