接下來的問題是:有了這些資料,該怎麼分析呢?
你可能會想兩種方式:1) multiple regression; 2) logistic regression
Multiple regression
如果考慮用multiple regression,那最大的問題就是right censored,這些人婚姻狀況仍在持續進行中,是因為不繼續搜集資料了,才無法追蹤他們的婚姻狀況。對於這些人,你應該怎麼處理?不論是直接刪除這些資料,或是將這些人的值設為全體的平均值,都不是合理的處理方式。
另外,如果一個人有多段婚姻,multiple regression也不能正確估算每個人的背景對婚姻的影響。
Logistic regression
如果考慮用logistic regression,那所看的問題就不是長度,而是婚姻是否持續。但這樣作並沒有考慮到時間的長度,只能考慮如下的問題:黑人的離婚率是否比白人高?但就算不分析,你也可以想到:離婚率與婚姻長度可能有關係。如果你只看離婚率,而不看婚姻長度,對於「黑人的婚姻是否比白人婚姻持續更久」這樣的問題,估算就會有誤。
所以看到這裡,大概就知道存活分析(survival analysis)的使用時機。使用時機是:你多次觀察受試者,觀察受試者是否在某一個狀態 (比如:婚姻持續中或離婚;生存或死亡;通過英文檢定考試或未通過)。所以你的dependent variable,可以說是時間的長度,也可以說是狀態是否改變。
存活分析就是讓你更準確估計:某些因素(如:種族、社經地位)是否影響到某一狀態 (婚姻的長度) 的長度與發生機率。注意:你的資料必須是一個人觀察了多次,才適合使用這種方法。