Stata: Nonparametric alternatives to conventional t tests

這一章的內容主要是從A gentle introduction to Stata作出來的筆記，加上一點點補充。這本書在 Stata書籍介紹介紹過，有興趣的可以自己翻翻。

話說從頭。由於我背景不是統計系、數學系、經濟系，再加上自己莫名其妙的從作質化研究跳到作量化研究，學統計都是遇到什麼問題學什麼，結果也混得還可以。不過之前上一個Econn出身的大教授所教的課，講到event history analysis的時候，提到nonparametric，實在是被這名詞打敗了，只好再翻翻出補補基本功 (OS. 別叫我去讀計量 @@)。

要解釋nonparametric，當然會想知道什麼是parametric。相信我，查字典是沒有多大的幫助的，字典的解釋是參數性的，這解釋似乎看字根就知道，還是不知道內涵是什麼。

那一計不成，再生一計，大概許多人也跟我一樣會翻 wikipedia吧！結果找到這條：http://en.wikipedia.org/wiki/Non-parametric_statistics ，終於有我看得懂的英文了。簡單地說，很多統計後面都有著assumption，其中一個assumption就是sample的variance是接近常態分配(normal distribution)的，如果你有興趣，可參考之前寫的不大成熟的文章：迴歸分析的假設(Assumption of OLS regression)。

所以這個parametric statistics or parametric tests，就是指所用的統計方法是基於這樣的假設，如果sample很明顯地違反了這個假設，那出來的結果是有問題的。

如果已經預見或測試出這樣的問題，所要用的方法就是distribution free的方式，也就是nonparametric statistics。Nonparametric中文有人翻譯成無母數統計，不過我比較喜歡直接把這個觀念連結到distribution free，無母數對中文不好的我來說好像意義不大。
(有人說nonparametric = distribution free，有人說不是，這我不懂，請參見別人的討論http://www.stat.ncku.edu.tw/bgsf/dissemination/talk/7-18-11.txt) ，如果這對你來說沒有很大的意義，就把 nonparametric 當作是處理 sample 明顯違反normal distribution 的辦法 (感謝網友 S. H. Su 與CM Chen 指正，詳情請看下方意見)。

如果是t test，上方的那本書介紹了兩個辦法，一個是Mann-Whitney two sample rank-sum test (亦有人稱為Wilcoxon rank-sum test)，一個是median test。這兩個辦法上面我都附上了wiki連結，看不懂我中文的可以參考wiki的解釋與說明。

先說一下資料結構。書上用的變數是psmoke97與性別。psmoke97是受訪者朋友吸煙的比例，而這比例是個範圍，值為1-5。詳見p. 156頁。

Mann-Whitney-Wilcoxon的測試方法細節不多說，作法像下圖。要比的變數在前面，組別在by後面。

ranksum psmoke97, by(gender97)

結果如下，z=-8.589，p<.001，這表示這兩組有顯著差別。而差別可從mean 和median裡看出來是哪個方向的。

另一個方法是median test，指令如下。
ranksum psmoke97, by(gender97)

由Pearson chi2(1)=44.63, p<.001可看出來兩組有明顯不同。

最後再補一下。雖然無母數統計我記得以前在台灣學統計的時候的時候學過，不過好像沒搞懂過。什麼時候要用，什麼時候不要用，對我是一個謎。不過書上指出了一點，如果measurement是ordinal，像是問卷常用的「很不同意，不同意，沒意見，同意，非常同意」，而不是interval measurement (像是年齡、體重，是有準確數值的，而且數值之間的距離是相等的)。如果要看性別是否對問卷某題的答案有所不同，而且樣本又小的話，那應該是要用無母數統計。

如果是組別超過兩組，那就是要用Nonparametric ANOVA，這以後再說。

S. H. Su

November 17, 2009 at 2:03 pm

我認為nonparametric 不等於 distribution-free，最明顯的例子就是一些基本的nonparametric方法，像是作者提到的Mann-Whitney two sample rank-sum test 或是median test，其實都是由chi-square distribution發展出來的，而且都有推導出新的distribution來描述，所以不等同於distribution-free。

distribution-free應該是指bootstrap, jackknife, Monte Carlo simulation之類的numerical computing方法。

CM Chen

November 18, 2009 at 7:14 am

個人認為，nonparametric的差別是不需要在統計分析之前去假設data是follow某種distribution form.因為在很多現實狀況下這些假設是很strong的(E.G., Normality)..這時non-parametric就比較管用(NB: but these non-parametric tests still have some basic assumptions on the underlying distribution.)
但最終這些無母樹方法還是基於機率論導出，所以還是有probability distribution，並不是就"distribution-free"了.

要指正的bootstrap還是有parametric, non-, and semi-parametric的分類.MC在實施上一開始還是要generate某種distribution的random variables。

總之，我反倒覺得distribution-free是更不精確的名詞:)個人意見..

Chin-Hsi Lin

November 26, 2009 at 6:24 pm

謝謝 S.H. Su與CM Chen不吝指正，原文已稍作修改，如還有誤解的地方，煩請指出。謝謝！

小米

January 24, 2010 at 9:18 am

不好意思請問一下!!

median test是在檢定兩組中位數是否存在顯著差異那請問ranksum是在檢定什麼呢?

謝謝回答

Hsieh

February 18, 2010 at 1:11 pm

作者已經移除這則留言。

February 18, 2010 at 1:12 pm

我覺得，S. H. Su網友好像把檢定統計量還有母體參數兩個觀念弄混了。
檢定用的統計值，是不含母數的一個函數，至於某無母數統計使用的檢定統計量，則是提出者「證明」它會服從某分配。
舉例而言，Friedman test的檢定統計量，就有教科書上常見的卡方，還有另一個F分配兩種(不花篇幅，兩者差別請自行研究)。我想，不會有人告訴大家，他手上握有的資料，同時服從卡方與F兩分配。

至於後面S. H. Su提到的東西，已有人更正，就不多言了。

至於non- parametric與distribution-free，兩者其實相通的，或者說兩個講的是同一樣的事。

摘星

August 25, 2010 at 12:54 am

你好:請問要如何一次print出10個變數的Wilcoxon rank-sum test?很多變數一個一個test很花時間,製表也很耗時?請問您可以提供好方法嗎 ??
謝謝
Tiffany

Stata: Nonparametric alternatives to conventional t tests

7 thoughts on “Stata: Nonparametric alternatives to conventional t tests”

Leave a Comment Cancel Reply