統計分析

Stata: 字串變成小寫

在輸入資料的時候,有時候團隊有不同人輸入,大小寫會不一致。當幾個資料檔想要match起來的時候,就會match不起來。這時候,不妨將資料全部標準化,字串全部變成小寫。

這部分很簡單,一個變數只要一行就可以搞定。如果原本的變數叫name的話,那一行程式就是:

replace name = strlower(name)

這樣就可以解決大小寫不一致的問題了。

Stata: 字串變成小寫 Read More »

計算effect size

很久以前寫過一篇:話說effect size,簡單說明了為什麼我們要關心effect size (效應值)。

然而,那篇還有一個重點沒說到:要如何計算effect size呢?特別是在作meta-analysis的時候。這個部分真的是說來話長,學者都是寫專書、專文在討論的,我只能給大家一點方向,讓大家有個概念。

算effect size的方法有很多種,像Cohen’s d 就是其中一種。更複雜的是:Cohen’s d 的計算方法視不同的統計方法、資料,而有不同的計算方法
具體一點來說,如果你有兩組人 (剛好兩組,不多不少),一組實驗組,一組控制組。作了實驗之後,想知道後測有沒有差別。文章用了 t-test,也告訴你每一組的平均值 (mean) 和標準差 (standard deviation)。在這種情況下,Cohen’s d 的算法為
d = (M實驗組 – M控制組) / SD兩組
而SD兩組的算法如下:
SD兩組= 根號 [ (SD實驗組2 + SD控制組2) /2 ]
拿數字來當實例。
如果M實驗組= 24, M控制組= 20,SD實驗組 =5, SD控制組=4,那
SD兩組= 根號 [( 52+42)/2] = 4.53
d = (24-20) / 4.53 = 0.88
如果你想知道更多公式,有一篇文章有簡易了解版:https://www.socscistatistics.com/effectsize/default3.aspx

計算effect size Read More »

Excel: 計算單字出現次數

有時候我貪圖省事,就會拿 Excel 來作 interview 的 coding,其實codes不多的話,拿excel作coding 真的滿快、滿方便的。

通常我會把一句話或短的段落放在一個excel 的 cell,然後直接作 coding,像是abca。

問題就來了:如果我要知道全部有幾個 a、幾個b,該怎麼作呢?

非常簡單,在另外一個cell,用以下的公式:

=LEN(A2)-LEN(SUBSTITUTE(A2,"a",""))

A2 就是要計算的 cell。所以我會把所有的 cells 分別算次數,然後再加總。

這樣作如果熟練的話,其實滿快的。唯一的缺點就是如果你cell裡面句子長的話,你又直接作coding,會沒辦法知道你的codes對應哪一個部分。

Excel: 計算單字出現次數 Read More »

Stata: 加總同性質的資料(Aggregate similar Observations) ~2

以前寫過一篇:Stata: 加總同性質的資料(Aggregate similar Observations),裡面用的方法是collapse,這種情況用於:一個人有多筆資料 (用術語說,就是資料格式是長格式),你想要加總同性質資料,將每個人的資料變成一筆。

這種方法雖好,但如果你想要維持資料是長格式 (一個人有多筆資料),那collapse就不符合你的需求。

假設資料格式如下圖所示。sid代表student id,did代表文件 id,words代表每個文件的字數。

stata-aggregate-1

如果用 collpase 指令:

collapse (mean) words, by(sid)

結果會如下圖所示。原本一個學生有多筆sid,跑完collapse之後,每個學生只剩一筆資料了。

stata-aggregate-2

但這有可能不是你要的,你可能還想維持長格式,那該怎麼辦呢?重新載入資料,我們從頭來過。

如果想知道每個學生平均words,那可以利用egen指令:

bys sid: egen avgwords = mean(words)

結果如下圖所示:

stata-aggregate-3

兩種方法都可以,但結果稍有不同。要選用哪種,就看你要作哪種分析。

Stata: 加總同性質的資料(Aggregate similar Observations) ~2 Read More »

合併多csv或excel檔案為一個sheet

有時候要作統計分析前,有很多準備工作得作。如何把資料放到stata或其它統計軟體,就是一門學問。

最理想的狀況是:你只有一個excel或csv檔,你就可以輕易地匯入統計軟體。但常常人算不如天算,有時候你的資料是同樣格式,但你有幾十個甚至幾百個檔案。如果你直接匯入stata,那你每一個檔案得:1) 先匯入 2) 存成stata 格式 3) 清空資料,再匯入下一筆 4) 最後合併。

這太麻煩了。所以想辦法在excel或csv的時候,把多個檔案合併成一個,會省你很多時間。

上網半天,找了個還算省事的方法,步驟先說明如下:

1) 用軟體,將數個csv或excel檔,合併到一個spreadsheet裡。

2) 有必要時,重複上一步驟,最終還是得到一個檔。

3) 清理一下這個檔的表頭 (如果第一行是title而不是資料數值)。

4) 匯入 stata。

最關鍵的就是:如何合併?

上網半天,找到一個人家寫好的程式:http://jeeshenlee.wordpress.com/2010/09/23/jmc-excel-join-merge-combine-multiple-excel-sheets-or-excel-workbooks/

合併多csv或excel檔案為一個sheet Read More »

Scroll to Top