統計分析

Stata: 比對部分字串變數

在作問卷時,有時候問題是 short answer,放到資料庫的時候會用一個字串來表示。如果假設我有一個變數,裡面是問受試者以後想要從事什麼行業,那就會出現五花八門的答案。
1.png
這時候可以作的,就是利用虛擬變量。假設答案裡面不管任何地方,只要出現 lawyer 的,你的 dummy 值為1,沒出現的則為 0。作法很簡單,只有一行而已:
gen dummy = strmatch(lawyer, "*lawyer*")
strmatch 是字串比對的指令,括號中的第一個變數是我的變數名字,第二個變數是要比對的字。但因為我設的規定是:不管 lawyer 出現在變數任何地方都可以,所以在此字串前後都加上了 *。那因為這是字串,所以最外面要加上””。
2.png

Stata: 比對部分字串變數 Read More »

如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score)

在很久很久以前我寫了一篇文章:如何分析前、後測: 進步分數(Analysis of Pre-test Post-test: Gain scores),利用進步分數 (gain scores,亦有人稱simple change model) 來作分析只是一種分析前、後測的方法而已。 另一種分析前、後測的方法則是 residualized change score (中文有人翻:殘餘改變分數),聽起來很 fancy 的名字,其實觀念很簡單,就是將 pre-test 的成績當作是共變數 (covariate) 放到你的方程式裡面。如果你本來是想作 ANOVA ,但想要用這種模式來作,那就會變成 ANCOVA (analysis of covariance),把pre-test 當作是共變數即可。如果原本是想作迴歸分析 (regression),那迴歸的公式會如下: Post-test score = b0 + b1 * Pre-test score + b2 * 其它變量 那這兩種模式有什麼不一樣呢?有的,這兩種方式問的問題不一樣。 如果是 simple change model,那你問的問題是:不同的兩組人之間是否在某件事的經驗上有不同程度的改變。換言之,你想要測試:兩組人之間,平均經驗的改變是否存在差異。 如果是 residualized change model,那你問的問題是:當控制了一開始的經驗之後,在第一組的人是否比第二組的人改變更多。 當然,有時候也有一些現實考量。統計學家指出:如果是 observational study,應該不要用 ANCOVA 或 residualized change model,而是用 simple change model。因為一開始的起點可能因為其它沒觀測的變數 (unobserved variables) 而影響。 如果是隨機分組並在 intervention 前作了 pre-test,這時候用 residualized change score 比較合適。 這裡只是簡單地介紹一下,至於詳細的內容與其它分析方式,有不少專書都涉及這方面,請大家自行翻閱。如有不足或疏漏,還請大家幫忙補充。 延伸閱讀Statistics: Gain scores vs.

如何分析前、後測: 殘餘改變分數 (Analysis of Pre-test Post-test: Residualized change score) Read More »

解讀 logistic regression

什麼是線性迴歸?(What is Multiple Linear Regression?) 談論過迴歸分析主要可用來作預測與作因果分析,那既然迴歸分析這麼好,為什麼還要談 logistic regression (中文有人翻:羅吉斯迴歸) 呢?

最主要的原因:在一般的迴歸分析中,dependent variable (DV) 是連續變項 (continuous variable);如果 DV 不是連續變項,而是二分變項 (dichotomous variable,如:男或女、存活或死亡、通過考試與否) 等情況,這時你就必須使用 logistic regression 了

當然,如果你堅持的話,你也可以跑 OLS regression,一樣會得到結果的。如果你得到的 coefficient 是 0.066 的話,解讀就是:當 IV 增加 1 的時候,DV 發生的機率增加 6.6% 。然而,這樣作是有缺點的,通常沒辦法準確地估算 IV 對 DV 的影響 (通常是低估)。

為了解決這個問題,統計學家用 odds ratio (勝算比) 於 logistic regression 之中。要說勝算比之前,要先了解什解什麼是勝算勝算指的是:一件事情發生的機率與一件事情沒發生機率的比值。以拋硬幣為例,拿到正面與拿到反面的機率都是 0.5,所以odds ratio 就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ,那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ,那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間

odds ratio 則是兩件事情的 odds 作比較。舉個例子來說,如果高學歷的人寫部落格的勝算(odds) 是  2.33,低學歷的人寫部落格的勝算是 0.67,那與低學歷的人比起來,高學歷的人寫作部落格的勝算是他們的 3.48 倍 (2.33/0.67),所以勝算比 (odds ratio)就是3.48

那如何解讀 logistic regression 的結果呢?通常你會看到文章裡呈現兩種結果:一種如果沒特別指名的話,就叫 coefficient,它的 DV 是某件事的 log odds ratio ,是勝算比取了自然對數;一種是 odds ratio 。這兩種值是可以互相轉換的,如果你的 log odds ratio 得到的 coefficient 是 0.405,你可以計算 odds ratio ,在 stata 指令列輸入 dis exp(0.405),會得到1.500。所以在讀文章的時候一定要讀清楚作者呈現的是 log odds ratio 或是 odds ratio

結果怎麼解讀呢?可從 log odds ratio 開始,解讀是:當 IV 增加一單位,log odds  會增加 ##。其實這解讀與 OLS regression 的解讀是一樣。如果你看到的是 odds ratio,解讀是:當 IV 增加一單位,odds 會增加 (##-1)*100%。兩種解讀方式都套上剛剛的數字,那結果會是:

log odds ratio: 當 IV 增加 1,log odds ratio of 某件事會增加 0.405 (請原諒我的英式中文@@)。

odds ratio: 當 IV 增加1,odds of 某件事會增加 (1.5-1)*100% = 50%。所以如果本來是 2,增加 50%的話,會變成 2 * 50% + 2 = 3 。換句話說,你也可以直接解讀為:當 IV 增加1,odds 某件事 (或是某件事的勝算。注意:這裡是勝算,不是勝算比) 會變成原本的值乘以1.5

如果你的勝算比 odds ratio 的 coefficient 是 0.667,那應該怎麼解讀呢?當 IV 增加1,某件事的勝算變成原本的值 (or 勝算) 乘以0.667。所以原本的勝算比如果是 3 的話,當 IV 增加1時,某件事的勝算會變成 2。你也可以說:當 IV 增加 1 時,某件事的勝算會減少 (1-.667)* 100% =33%

延伸閱讀

Logistic Regression介紹—晨晰統計林星帆顧問整理 http://tw.myblog.yahoo.com/da_sanlin/article?mid=1013&sc=1

解讀 logistic regression Read More »

多重比較 Multiple comparisons

在用 ANOVA 時,會得到一個 F-test,這個 test 只能告訴你整個 model 是否顯著 (i.e., 總體平均數不相同或不完全相同),並不能告訴你特定的組與組之間是否有差異。有很多種方法可以比較組間的平均值是否有差異,這些方式就稱作多重比較 (multiple comparisons) (註:這裡只說事後比較,不提事前比較)。

那為什麼有這麼多種方式,不要有一種就好?好問題,因為問題的核心是 Type I errors。不同的方法有不同的假設與處理 Type I errors 的方式。那為什麼問題的核心是 Type I errors呢?因為就整個 model 的 F-test 來說,你只有一個比較,換言之,你只要處理一次 Type I error 即可。但當你作多重比較時,你就要處理很多次 Type I error (三組間的比較就要處理三次,四組就要六次) ,在這情況下,就要調整 error rate 以免不小心犯了 Type I error 了。

如果要作 post hoc comparisons (有人叫 posteriori test) ,有許多選擇:1) Fisher’s Least Significant Difference (又稱為 LSD);2) Tukey’s Test;3) The Ryan Procedure (REGWQ);4) The Scheffé Test;5) Dunnett’s test for comparing all treatments with a control。

會產生這麼多方法,主要是比較的方式不同。有的方法是與均值作比較 (i.e.,…

多重比較 Multiple comparisons Read More »

Scroll to Top