Author name: researcher20

什麼是存活分析? (What is survival analysis?) 之二

接下來的問題是:有了這些資料,該怎麼分析呢?

你可能會想兩種方式:1) multiple regression; 2) logistic regression

Multiple regression

如果考慮用multiple regression,那最大的問題就是right censored,這些人婚姻狀況仍在持續進行中,是因為不繼續搜集資料了,才無法追蹤他們的婚姻狀況。對於這些人,你應該怎麼處理?不論是直接刪除這些資料,或是將這些人的值設為全體的平均值,都不是合理的處理方式。

另外,如果一個人有多段婚姻,multiple regression也不能正確估算每個人的背景對婚姻的影響。

Logistic regression

如果考慮用logistic regression,那所看的問題就不是長度,而是婚姻是否持續。但這樣作並沒有考慮到時間的長度,只能考慮如下的問題:黑人的離婚率是否比白人高?但就算不分析,你也可以想到:離婚率與婚姻長度可能有關係。如果你只看離婚率,而不看婚姻長度,對於「黑人的婚姻是否比白人婚姻持續更久」這樣的問題,估算就會有誤。

所以看到這裡,大概就知道存活分析(survival analysis)的使用時機。使用時機是:你多次觀察受試者,觀察受試者是否在某一個狀態 (比如:婚姻持續中或離婚;生存或死亡;通過英文檢定考試或未通過)。所以你的dependent variable,可以說是時間的長度,也可以說是狀態是否改變。

存活分析就是讓你更準確估計:某些因素(如:種族、社經地位)是否影響到某一狀態 (婚姻的長度) 的長度與發生機率。注意:你的資料必須是一個人觀察了多次,才適合使用這種方法。…

什麼是存活分析? (What is survival analysis?) 之二 Read More »

什麼是存活分析? (What is survival analysis?) 之一

每學一個統計方法,你都要先問自己:我為什麼要學新的方法?這方法能解決什麼樣的問題?要什麼時候用這個方法?透過這樣的學習,你才會知道什麼時候該用什麼方法。

所以先來情境假想:

一對夫妻,平均結婚多久?

這問題你可以從問卷來看:透過問卷詢問:你結婚多久了?

然而,這樣作的問題非常明顯:你詢問的時候,一對夫妻可能剛結婚,一對夫妻可能結婚了40年,但仍在婚姻狀態。你問到的「結婚多久」,不能完全反應他們結婚的長度。另外,如果有人有多次婚姻,你如何估算呢?

那多次作問卷有助於解決這個問題嗎?當然有,問題是:作了多次問卷,該怎麼分析呢?

你可能會得到下面的結果:第一個人結婚15年,第二個人有兩段婚姻,第一段有6年,第二段有13年。第三個人結了15年,諸如此類的。

survivial analysis

你會遇到幾種情形:

1) 結婚的期間完全在觀察範圍之內 (也就是在觀察期時開始與結束),這種資料稱作no censoring。

2) 你在開始搜集資料前,他們以前結婚了。這種資料叫作 left censoring。

3) 還有一種情形,像上圖第10個人的第二段,在結束搜集資料前,他的婚姻仍持續著,尚未結束。這種情況叫right censoring。

你可能會想:那到底什麼叫作censoring?你可以把它想成是代表missing data,no censoring就代表沒有missing data,left censoring就代表沒有左側資料,right censoring就代表沒有右側資料。

相關閱讀

存活分析(Survival analysis)介紹-Ⅰ~晨晰統計林星帆顧問整理:http://tw.myblog.yahoo.com/da_sanlin/article?mid=1748

什麼是存活分析? (What is survival analysis?) 之一 Read More »

Stata: 設定記憶體大小

設定Stata的記憶體是適合Stata11以前的版本。Sata 12已經可以自動設定記憶體大小了。

在Stata裡,有時候沒有設定足夠的大小,就會出現莫明其妙的錯誤,有時候告訴你是memory問題,有時候告訴你是no room。

反正,遇到奇怪的問題時,特別是單獨跑一個code可以,但很多個models跑起來就存不起來的問題,通常是記憶體大小不夠。

要設定記憶體,要先把資料清掉。

clear <br />set memory 100m, perm

perm 這個option是將這個記憶體設定選項永久存起來,只要設定一次就可以了。

建議一開始用Stata,就設定足夠的記憶體,免得以後出問題的時候,找半天找不到。…

Stata: 設定記憶體大小 Read More »

關於留言問問題

今天偶然登入blogger的後台,看了一下垃圾留言,才驚覺:有不少人的留言,都被Google判定為垃圾留言

如果你想留言問問題,麻煩各位一下:

  1. 不要隨便找到研究生2.0的一篇文章,就在下面問問題。你的問題如果與文章不相關,對以後的人實在沒什麼幫助。
  2. 我會儘量花時間回答問題,但我並不是什麼都會。不要期望你留了言,問題就會自然解決 (或是我可以解決)。在作研究的過程中,解決問題的能力是要自己培養的,我們可以互相交流,但很有可能我沒辦法回答你的問題如果我長時間沒回應,代表我可能漏掉你的留言了,或者是我沒辦法回答你的問題。
  3. 不要一次在不同的文章/同樣的文章,留下同樣的評論,這樣的留言很容易認定為垃圾留言。我通常不會到後台去看垃圾留言的,所以你的留言如果沒有馬上出現,請用google帳號登入,過幾分鐘之後再次留言。
  4. 留言的內容通常不容易被搜尋引擎索引,所以除了在部落格留言,我也鼓勵大家到研究生論壇去留言發問。目前由於機器人註冊太多垃圾帳號,所以新帳號是由人工審核的。申請時請寫一下註冊的原因,我隔幾天就會上去審核帳號。不過如果你的ip是台灣的或是美國的,應該會自動通過審核。

關於留言問問題 Read More »

Stata: 如何畫growth trajectories

如果你的資料是longitudinal data,一個人觀察了多次,你通常會想要先看看growth trajectories (成長曲線或成長軌道)。

資料如下圖所示,id是代表人,occ是每個人的第幾個觀察次數,age是觀察時候的年紀,weight是觀察時候的體重。這種資料形式叫作long format,也就是一個人有多筆觀察紀錄。

stata long format

要畫圖的話,基本指令是用graph twoway。整個程式如下:

use <a href="http://www.stata-press.com/data/mlmus2/asian">http://www.stata-press.com/data/mlmus2/asian</a>,

Stata: 如何畫growth trajectories Read More »

Scroll to Top