最近副業作太兇了,所以來寫一篇文章重申一下我的本業。
這學期在 TA 博士班的統計課,這門課我聽了三遍了,每次聽都有新的收獲,我把我自己的想法寫下來,歡迎各位先進指教。
我每過一陣子就會遇到下面的情形:有人拿著他的資料來找我,花了很多解釋他的資料是長什麼樣子的,問我應該要怎麼分析。
遇到這種情形,我通常會問:你的研究問題是什麼?有什麼理論根據?不過似乎很多人對這樣的回答挺不滿意的,因為這回答並沒有解決他們的問題。但這樣的情形我也愛莫能助,因為有太多的分析方式了。
拿下面的資料作例子,我們來討論討論。如果我們有一個 longitudinal 的資料,追踨了18年,從0歲到18歲。我們最有興趣看的是學習成就與家庭年收入之間的關係,其它相關變數已經列入考量,就不再討論。
年 |
0 | 1 | 2 | 3 | … | 18 |
學習成就 |
||||||
家庭收入 |
在這種情形下,你要怎麼分析?如果你不思考這兩種之間的關係,不考慮文獻,只是思考兩者之間是否有因果關係,那有很多種方式。上課的學生就列出了不少。
1. growth curve 成長曲線:先看看學習成就的成長曲線,再看看家庭收入的成長曲線,看看兩者之間是否有關連。基本上這就是看成長曲線之間的相關性,但也無法說明因果關係。
2. year by year concurrent relationship:另外一個學生說:可以看每年之間,兩個變數之間的關係。或許這些關係平均起來,就可以看出這兩者是否存在關連。很好,但這很難說明是因果關係。
3. cumulative impact:說來複雜,這位同學想的是如果要看十歲的學習成就,就把前五年一起放到模型裡面,再放入五歲時候的學習成就當作控制。
Age 10 學習成就 = a + b1 Age9 收入 + b2 Age8 收入 + … + Age 5 收入 + Age 5 學習成就
這些方法都不是完美的,其實也很難說有完美的方法,我們只是從「邏輯」與「實證」上找尋最有意義的分析方式。那回到前面的幾個選項,如果這些符合你的假設,那就是好的分析方式。但好的分析方式不只是要看能否回答你的研究問題,也得從邏輯上來思考。
拿前兩者來說好了,這兩者是看家庭收入對學習成就立即的影響,也就是如果家庭收入提高,你就假設個人學習成就會立刻提高。這顯然不符合常識,所以這或許不是一個很好的分析方式。
我想說的就是:有時候並不是看到數據就知道要如何分析,你的不同假設會有不同分析方式;從另外一個角度說,你不同的分析方式也代表著你的假設。先想清楚自己要看的是什麼,變數之間的關係是否合理,你自然會對要如何分析有個概念了。
這道理很簡單,但很多人卻看不清楚,期待所有數據只有一種分析方式,研究總有正確答案,這實在是作研究的大忌。