AI 技術前沿

AI 寫的文獻回顧,比博士級專家更好?Nature 研究的人類評估結果令人意外

華盛頓大學與 AI2 團隊在 Nature 發表的 OpenScholar 研究中,16 位博士級專家在盲測中有 70% 的時間偏好 AI 產生的文獻綜述。但細看評測結果,真正的故事不是 AI 取代人類,而是 AI 如何改變學術工作流。

來源: Nature
AI 寫的文獻回顧,比博士級專家更好?Nature 研究的人類評估結果令人意外

封面圖

本文整理自華盛頓大學與艾倫人工智慧研究所(AI2)團隊 2026 年 2 月發表於 Nature 的研究論文。本文為 OpenScholar 系列第三篇,聚焦人類專家評測的結果與意涵。系列其他文章:引用幻覺問題小模型為什麼能贏


16 位博士,108 個問題,一個意外的結果

當你請一位神經科學博士回答一個關於大腦可塑性的文獻綜述問題,他平均需要花 56 分鐘。他會從自己多年的研究經驗出發,回想讀過的關鍵論文,查閱幾篇最新的文獻,然後寫出一段有深度的回答。56 分鐘——這是一個訓練有素的人類專家,從理解問題到產出完整回答所需的時間。一天最多能處理七八個問題。

現在,把同一個問題丟給一個 AI 系統。它在幾秒鐘內掃描 4,500 萬篇論文,找出最相關的文獻,產生一段帶有完整引用的回答,然後自己檢查一遍有沒有遺漏。整個過程不到一分鐘。哪個答案比較好?

華盛頓大學與艾倫人工智慧研究所(AI2)的研究團隊設計了一個嚴謹的實驗來回答這個問題。他們從電腦科學、生物醫學和多學科交叉領域挑出 108 個專業問題,先請領域專家撰寫答案,再用 OpenScholar 系統產生答案。然後,另一組 16 位博士級評審在不知道答案出處的情況下,根據五個面向來評比:廣度與深度(Breadth & Depth)、相關性(Relevance)、引用品質(Citation Quality)、資訊組織(Organization)、以及實用性(Usefulness)。

結果出乎很多人意料:當 OpenScholar 搭配 GPT-4o 作為生成器時,專家有 70% 的時間偏好 AI 的答案。即使用只有 80 億參數的 OpenScholar-8B,偏好率仍然有 51%——和人類專家打成平手。而沒有搭載檢索增強的原版 GPT-4o,偏好率只有 31%,明顯不如人類。

AI 到底贏在哪裡?

覆蓋面是 OpenScholar 最大的優勢所在。這很好理解:一個人類專家不管多資深,他熟悉的文獻範圍終究有限。即使是某個領域的頂尖學者,也不可能讀過該領域所有的論文,更不用說跨領域的相關研究。但 OpenScholar 可以在幾秒內搜尋 4,500 萬篇論文的全文段落,找出人類專家可能根本不知道存在的相關研究。OpenScholar-GPT-4o 產出的回答,平均長度是人類專家答案的 2.4 倍,引用的論文數量也更多。專家評審反覆提到,AI 的回答「提供了我不知道的相關研究」或「涵蓋了我原本會遺漏的面向」。

在相關性和資訊組織方面,OpenScholar 也表現得不錯,但優勢沒有覆蓋面那麼壓倒性。這兩個面向更依賴「判斷力」——知道哪些資訊最重要、該用什麼邏輯順序呈現——而這恰好是人類專家的強項。一個有二十年研究經驗的學者,對於自己領域裡什麼是真正重要的問題、什麼是次要的細節,有一種 AI 很難模仿的直覺。

引用品質是一個有趣的指標。在引用是否真實存在這一項上,OpenScholar 的表現和人類專家相當——引用幻覺率為 0%,這本身就是一個巨大的突破(對比 GPT-4o 的 78-90% 幻覺率)。但在「引用是否精確支持論述」這個更細緻的維度上,人類專家仍然略勝一籌。專家引用一篇論文時,他知道那篇論文的具體貢獻是什麼、有哪些侷限、和其他研究的關係如何。AI 的引用更像是「找到一篇相關的論文然後附上」,有時候引用的段落確實和論述相關,但不一定是最精確的支持證據。

「實用性」的分數背後

在所有評測指標中,「實用性」(Usefulness)可能是最接近真實使用場景的一個。評審被要求判斷:這個回答對你的研究工作有多大幫助?

OpenScholar-GPT-4o 在 80% 的問題上被評為「有用」,OpenScholar-8B 是 72%。這個數字意味著,在大約四分之三到五分之四的情況下,一個有經驗的研究者認為 AI 產生的文獻綜述對他的工作有實際價值。

但那 20-28% 被認為「不太有用」的情況,同樣值得關注。最常見的問題是回答過於寬泛:對於高度專精的問題,AI 有時候會給出一個涵蓋面很廣但深度不足的回答,就像一個勤奮的研究助理讀了很多相關論文但不太能分辨哪些才是真正核心的。

另一個限制出現在方法論層面。AI 可以準確引用某篇論文用了什麼方法、得到什麼結果,但對於這個方法為什麼在特定場景下有效或無效的判斷,還比不上領域專家的直覺。更根本的差距在於批判性思考:人類專家在做文獻回顧時,會指出某些研究的方法論弱點或結論的侷限性,而 AI 的回答傾向於忠實地呈現每篇論文自己聲稱的結論,較少進行批判性的分析。

這些侷限很重要,因為它們劃出了目前 AI 文獻助手的能力邊界。OpenScholar 很擅長的是「找到並整合相關文獻」,也就是文獻回顧中最耗時、最機械的部分。它比較不擅長的是「評價和批判文獻」,也就是真正需要專業判斷力的部分。

容易被忽略的貢獻:評測基準本身

這篇論文另一個容易被忽略的貢獻,是他們建立的評測基準 ScholarQABench。這是目前首個跨學科的開放式科學文獻綜述評測,涵蓋電腦科學、物理學、神經科學和生物醫學四個領域,包含 2,967 個專家撰寫的查詢和 208 個長篇標準答案。

為什麼這很重要?因為 AI 系統的評估品質,很大程度上取決於你用什麼來評它。過去評測文獻問答系統,通常用的是封閉式的事實性問題——像是「某個蛋白質的結構是什麼?」這種有標準答案的問題。但真實的學術文獻回顧不是這樣的。研究者需要的是開放式的綜述——「目前深度學習在蛋白質結構預測上的進展如何?主要的方法有哪些?各有什麼優缺點?」這種問題沒有「唯一正確答案」,評估它的品質需要領域專家的判斷。

ScholarQABench 的設計者為此建立了一套詳細的評分標準。對於電腦科學領域的 100 個問題,每個問題都有一組專家定義的「正確答案要素」(rubric ingredients)——比如一個關於 Transformer 架構的問題,rubric 可能列出必須提到自注意力機制、位置編碼、和多頭注意力這三個要素。評分時,自動評分系統和人類評分的相關係數約為 0.72,雖然不完美但已經足以作為可靠的自動評測指標。

這個基準測試本身的開源,可能和 OpenScholar 系統一樣重要。沒有好的評測標準,你就無法客觀地比較不同系統的優劣,也無法追蹤技術進步的軌跡。過去各家系統各用各的評測方式,結果不可比較。ScholarQABench 提供了一個統一的標準,讓所有人在同一把尺上競爭。

重新定義分工,而非取代

Times Higher Education 報導這篇研究時,用的標題是「新聊天機器人在文獻回顧上超越博士生」。這個標題不算錯,但它暗示的敘事——AI 將取代學術研究者——我認為完全搞錯了方向。

仔細看評測結果就會發現,OpenScholar 贏在覆蓋面,人類專家贏在深度判斷力。這是一個互補的關係。最好的使用方式是讓 AI 先做第一輪的大範圍搜索和初步整合,人類專家再在這個基礎上進行篩選、批判和深度分析。把「找論文、讀論文、整理論文」這個最耗時間的機械性工作外包給 AI,讓研究者把時間花在真正需要人類智慧的地方:提出好問題、評估方法論、發現研究缺口、產生原創見解。

從產業趨勢來看,OpenScholar 的出現和 OpenAI、Google 推出的「深度研究」功能不謀而合。自 2024 年底 OpenScholar 預印本發布以來,各大 AI 公司都在強化自家產品的學術搜尋和引用能力,「能準確引用文獻的 AI」已經被認定是一個有巨大需求的產品方向。OpenScholar 的公開示範系統在上線後吸引了超過 3 萬名使用者、處理近 9 萬次查詢。

但我最在意的其實是開放性。OpenScholar 的所有元件全部開源:模型、資料庫、訓練資料、評測基準,一個都不藏。在 AI 研究日益被少數大公司壟斷的今天,一個來自大學和非營利研究機構的團隊,用開源的方式做出了打敗商業頂尖產品的系統。AI2 長期倡導的理念是 AI 研究應該為所有人服務,不只是少數付得起 API 費用的人。OpenScholar 是這個理念的一次有力實踐。

科學文獻回顧聽起來是一個很窄的應用場景,但它觸及了 AI 落地的一個核心問題:當 AI 被用在需要高度可靠性的專業領域時,我們能不能信任它的輸出?OpenScholar 的回答是:可以,但前提是你得從系統架構層面解決幻覺問題,而非期待一個通用模型自己變得不說謊。這個經驗適用於所有想在專業領域部署 AI 的人。