統計分析

用哪種統計軟體好?SAS, SPSS, or Stata?

要作統計分析通常會需要安裝統計軟體,SAS, SPSS, and Stata就是其中三套知名的商業軟體。雖然大部分我認識的人,用這三套軟體的原因都不是出於「自願」,而是看自己的老闆用什麼,但我還是決定寫下我的心得,讓有需要的人自行選擇。簡單地說,SAS是要寫指令的,沒什麼下拉選單可以幫你作統計,SPSS主要是下拉選單,要手寫程式還不大容易(SPSS 17已支援)。Stata是介於中間,你可用指令模式,忘了指令也可以下拉式選單來完成

SAS

SAS是我覺得學習門檻最高的。雖然SAS和Stata都需要寫程式,但SAS的程式比Stata難寫得多。我是因為以前偶而也寫點程式,所以學SAS不難。舉幾個例子好了,SAS需要開頭和結尾都作宣告,像proc,每行結尾都要用;,最後還要加個run。指令就像下面這樣。

1.png

 

此外,SAS畫出來的圖是真的很醜!我拿我以前的作業,讓大家看一下。連我們老師那種死忠的SAS擁護者,都說他們會用別的軟體畫圖,讓人一整個無言啊….

用哪種統計軟體好?SAS, SPSS, or Stata? Read More »

Excel轉Stata

Stata是一套滿容易上手的統計軟體,有指令模式和圖形化操作界面,可符合每個人不同的需求。
我的習慣是:在開始用一套軟體前,先了解相容性的問題。統計軟體對我來說是大同小異,就算寫幾行程式也不是什麼大不了的事。但如果我的資料不能在txt、csv這些格式與軟體的格式互相轉換的話,就會令我怯步了。萬一你哪天要轉給人家才發現不能轉,或是你有個不錯的資料是excel的格式但讀不進去,那豈不是白搭嗎?

 

其實現在的軟體都做得不錯,把這樣的功能考慮進去了,但在操作上我覺得並不是每個人都懂的。最近試了一下excel轉stata,雖然不難,但我也是試了幾次才確定是哪一種格式。下面就是簡單的說明。

 

  1. 自行準備一個excel檔,資料格式(是數字或文字)必須在excel設定好。missing value也記得先補上。我的資料看起來如下:1.png
  2. 到excel裡,點擊另存新檔。
    2.png
  3. 跳山新視窗後,在存檔類型選文字檔(tab 字元分隔)。
    3.png
  4. 有時候因為在excel設定了格式,會出現警告訊息,不要理它繼續按「是」。
    4.png
  5. 這時候你應該有了一個txt檔,裡面column之間是用tab分隔的。現在把stata打開,選擇import,然後選Ascii data created by a spreadsheet。5.png
  6. 選擇你的檔案,如果找不到,右下角先選擇txt檔。
    6.png
  7. stata會跳出一個視窗,先選好你的文字檔路徑,然後記得delimiter的地方要選tab-delimited data。選完之後按ok。7.png
  8. 選完之後你就會在左下角看到你的variables了。很簡單吧!8.png
Technorati 的標籤:,,,

Excel轉Stata Read More »

抽樣分配(sampling distribution)

在學統計的時候,我個人覺得抽樣是不好解釋的地方,特別是有人常問的問題:「如果母群體不是呈現常態分配,這樣抽樣出來,具有代表性嗎?」

 

1.png

觀念可以利用玩的玩出來。假設上圖是我們的母群體,你會發現這個母群體並非常態分配,而是呈現右傾斜的。如果我們一次從母群體中取出5個個體,然後計算這群個體的平均值,然後紀錄下來。做了很多次之後,這些平均值,會呈現常態分配。

不相信嗎?那到下面玩玩吧!

網址:http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/

抽樣分配(sampling distribution) Read More »

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)

每次要分析資料,你是不是也有這種時刻——

數據都整理好了,軟體也開了,手指懸在鍵盤上,然後……腦子空白。😶

「這題該用 T-test 還是 ANOVA?」
「前後測可以用 T-test 嗎?」
「什麼時候才需要用 Regression?」

這篇文章不講公式,不推導原理,只告訴你什麼情況用什麼方法。

t 檢定(T-test):比較兩組的平均值

T-test 的核心問題只有一個:這兩組的平均值有沒有差異?

使用條件很單純:有兩組,而且只有兩組。組別必須是類別變數,像是性別(男/女)、實驗組與控制組、有無接受訓練。

⚠️ 如果超過兩組,就不能用 T-test,要換 ANOVA。原因很簡單:每做一次 T-test,犯錯機率就疊加一次。三組硬拆成三次 T-test,整體錯誤率早就超標。

還有一個很常犯的錯誤:把前後測資料當兩組獨立樣本跑 T-test。

前後測是同一批人測兩次,兩筆分數之間有關聯,這種情況要用的是 paired-sample t-test(配對樣本 T 檢定),不是 two-sample T-test。用錯了,結果就算顯著,也不代表你真正想證明的那件事。

延伸閱讀:如何分析前後測:進步分數殘餘改變分數

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?) Read More »

Scroll to Top