前一陣子有個剛進 lab 的博一學生來找我討論他的研究提案。他的文獻回顧卡得很痛苦。
他告訴我,他把幾個核心概念丟進 Google Scholar,結果跑出三千多篇 paper。他花了一個多禮拜,用關鍵字一頁一頁撈,把摘要看起來有點關聯的都下載下來。結果報 paper 的時候,我發現他漏掉了這個領域近三年最重要的兩篇 foundation papers,反而看了一堆應用型的邊緣文章。
這幾年帶學生找題目,我越來越覺得,初期工具的選擇,會直接決定你摸索期的痛苦指數。大家最直覺、最習慣用的永遠是 Google Scholar。但我通常會建議他們,在你要建立一個陌生領域的 domain knowledge 時,Semantic Scholar 可能是更好的起手式。
這兩者到底該怎麼選?怎麼搭配?
Google Scholar 的致命傷:關鍵字驅動的「資訊海嘯」
Google Scholar 就像是一張孔徑極小的巨大漁網。
它的優勢很明顯:覆蓋率無可挑剔。幾乎只要是有掛在網路上的學術 PDF、甚至是一些尚未出版的 working papers,它都能撈出來。對於已經很清楚自己要找什麼的人來說,這是一個很安心的資料庫。
但這也是它對新手最不友善的地方。
當你輸入一個稍微 broad 一點的關鍵字,它會按照 relevance 和總引用數給你結果。但很多時候,引用數高不代表這篇 paper 對「你現在的問題」最重要。
有些 paper 引用數破千,只是因為它提出了一個常被提及的名詞定義,後來的人在 introduction 都會順手 cite 一下。你很容易迷失在幾百頁的搜尋結果裡,分不清哪篇是方法論的突破,哪篇只是沾到邊的過客。
Semantic Scholar 的破局點:看懂「誰真的有影響力」
這時候,我通常會讓學生停下在 Google Scholar 的漫無目的搜尋。我請他把那兩三篇他覺得最有感覺的 paper,丟進 Semantic Scholar 裡。
Semantic Scholar 是由 Allen Institute for AI 開發的。它最大的差別在於,它試圖去理解文獻與文獻之間的「實質關係」。
它不只是傻傻地算這篇 paper 被引用了幾次,它會用自然語言處理去分析那些引用的 context。
我最常叫學生看的一個功能是「Highly Influential Citations」。一篇經典 paper 可能有 800 個引用,但 Semantic Scholar 會幫你過濾出,真正把這篇 paper 當作核心基礎、有在內文深入討論甚至延伸其方法的,可能只有不到 30 篇。
——這對一個正在海裡掙扎的研究生來說,就是把一個禮拜的盲目 reading,縮短成一個下午的精準打擊。
什麼時候你「必須」留在 Google Scholar?
雖然我在初期更推崇 Semantic Scholar 的網絡篩選能力,但有些場景下,Google Scholar 還是目前無法被完全取代的工具。
1. 極度冷門或跨領域的長尾關鍵字搜尋
Google 核心的爬蟲與搜尋演算法還是最強的。如果你在找一個非常特定的專有名詞、或是某個特定年份的非傳統會議紀錄,Google Scholar 撈出那些躲在暗處的 PDF 的機率,還是比別人高。
2. 追蹤特定大牛的最新動態
Google Scholar 的學者 Profile 建立得最早、也最普及。很多學者會自己去維護上面的列表。如果你想知道某個你關注的學者最近幾個月發了什麼新文章,設定 GS 的 alert 或是定期去刷他的 profile,還是最穩定直接的做法。
3. 進行系統性回顧(Systematic Review)的 Exhaustive Search
如果你現在是在寫 meta-analysis 或 systematic review,你的目標是「不能漏掉任何一篇」。這時候你不能只靠 Semantic Scholar,因為它的資料庫更新速度和邊緣期刊的涵蓋範圍,有時候還是會比老大哥 Google 慢一點。
什麼時候你應該立刻打開 Semantic Scholar?
1. 剛踏入一個新領域,需要畫「族譜」的時候
當你需要快速搞懂這個領域誰是開創者、誰是後來居上的挑戰者。Semantic Scholar 的引文圖譜和分類,能幫你快速建立起這個領域的對話脈絡,而不是只看到一堆孤立的 PDF。
2. 順藤摸瓜找「方法論」的時候
當你手上有兩三篇核心 paper,你想知道「後來的人怎麼改進他們的方法」。Semantic Scholar 有個功能是可以看 Citation Type(例如這篇引用是把它當作 Background,還是 Methodology)。這對於你要尋找具體操作方法的 reference 幫助非常大。
3. 讀 paper 前的快速篩選
它每篇 paper 下面附帶的 TLDR(用 AI 生成的一兩句話總結核心貢獻)功能。雖然現在各種 AI 閱讀工具滿天飛,但在最初的搜尋介面就能直接掃過一輪 TLDR,對決定「這篇要不要載下來看」的判斷效率提升很多。
帶學生時我最建議的「雙管齊下」工作流
我現在通常會建議學生採用這樣的三步策略:
第一步,先用 Google Scholar 進行廣泛的關鍵字掃描。你的目標不是讀完所有結果,而是找出 3 到 5 篇近五年的高引用 Review paper,或是跟你題目設定高度相關的實證研究。把這些當作你的 Seed papers。
第二步,拿著這些 Seed papers 切換到 Semantic Scholar。利用它的引文網絡功能,去看看「誰強烈引用了這些文獻」,或是「這些文獻共同引用了誰」。從這裡去擴充你真正的 reading list。
第三步,在 Semantic Scholar 裡透過 Highly Influential 篩選,抓出那些真正推動這個次領域發展的十來篇核心文獻。然後,關掉瀏覽器,開始精讀。
文獻回顧從來不是在比誰硬碟裡存的 PDF 比較多。
它是在比誰能最快看懂一個領域裡,大家到底在吵什麼、在解決什麼。Google Scholar 給你的是這個會議室裡全部的發言文字稿,而 Semantic Scholar 試圖幫你標出哪些人說的話才是關鍵。下次再面對幾千篇的搜尋結果卡住時,換個工具試試看。
