統計分析

Excel轉Stata

Stata是一套滿容易上手的統計軟體,有指令模式和圖形化操作界面,可符合每個人不同的需求。
我的習慣是:在開始用一套軟體前,先了解相容性的問題。統計軟體對我來說是大同小異,就算寫幾行程式也不是什麼大不了的事。但如果我的資料不能在txt、csv這些格式與軟體的格式互相轉換的話,就會令我怯步了。萬一你哪天要轉給人家才發現不能轉,或是你有個不錯的資料是excel的格式但讀不進去,那豈不是白搭嗎?

 

其實現在的軟體都做得不錯,把這樣的功能考慮進去了,但在操作上我覺得並不是每個人都懂的。最近試了一下excel轉stata,雖然不難,但我也是試了幾次才確定是哪一種格式。下面就是簡單的說明。

 

  1. 自行準備一個excel檔,資料格式(是數字或文字)必須在excel設定好。missing value也記得先補上。我的資料看起來如下:1.png
  2. 到excel裡,點擊另存新檔。
    2.png
  3. 跳山新視窗後,在存檔類型選文字檔(tab 字元分隔)。
    3.png
  4. 有時候因為在excel設定了格式,會出現警告訊息,不要理它繼續按「是」。
    4.png
  5. 這時候你應該有了一個txt檔,裡面column之間是用tab分隔的。現在把stata打開,選擇import,然後選Ascii data created by a spreadsheet。5.png
  6. 選擇你的檔案,如果找不到,右下角先選擇txt檔。
    6.png
  7. stata會跳出一個視窗,先選好你的文字檔路徑,然後記得delimiter的地方要選tab-delimited data。選完之後按ok。7.png
  8. 選完之後你就會在左下角看到你的variables了。很簡單吧!8.png
Technorati 的標籤:,,,

Excel轉Stata Read More »

抽樣分配(sampling distribution)

在學統計的時候,我個人覺得抽樣是不好解釋的地方,特別是有人常問的問題:「如果母群體不是呈現常態分配,這樣抽樣出來,具有代表性嗎?」

 

1.png

觀念可以利用玩的玩出來。假設上圖是我們的母群體,你會發現這個母群體並非常態分配,而是呈現右傾斜的。如果我們一次從母群體中取出5個個體,然後計算這群個體的平均值,然後紀錄下來。做了很多次之後,這些平均值,會呈現常態分配。

不相信嗎?那到下面玩玩吧!

網址:http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/

抽樣分配(sampling distribution) Read More »

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?)

每次要分析資料,你是不是也有這種時刻——

數據都整理好了,軟體也開了,手指懸在鍵盤上,然後……腦子空白。😶

「這題該用 T-test 還是 ANOVA?」
「前後測可以用 T-test 嗎?」
「什麼時候才需要用 Regression?」

這篇文章不講公式,不推導原理,只告訴你什麼情況用什麼方法。

t 檢定(T-test):比較兩組的平均值

T-test 的核心問題只有一個:這兩組的平均值有沒有差異?

使用條件很單純:有兩組,而且只有兩組。組別必須是類別變數,像是性別(男/女)、實驗組與控制組、有無接受訓練。

⚠️ 如果超過兩組,就不能用 T-test,要換 ANOVA。原因很簡單:每做一次 T-test,犯錯機率就疊加一次。三組硬拆成三次 T-test,整體錯誤率早就超標。

還有一個很常犯的錯誤:把前後測資料當兩組獨立樣本跑 T-test。

前後測是同一批人測兩次,兩筆分數之間有關聯,這種情況要用的是 paired-sample t-test(配對樣本 T 檢定),不是 two-sample T-test。用錯了,結果就算顯著,也不代表你真正想證明的那件事。

延伸閱讀:如何分析前後測:進步分數殘餘改變分數

用哪種統計分析方式好?(卡方,Anova,T-test, or regression?) Read More »

Scroll to Top