AI 技術前沿

80 億參數打敗 GPT-4o:Nature 論文證明 AI 不是越大越好

華盛頓大學與 AI2 團隊在 Nature 發表的 OpenScholar 研究證明,一個僅 80 億參數的開源模型,搭配專業化的檢索增強架構,能在科學文獻綜述任務上全面擊敗 GPT-4o,且成本只有競品的百分之一。

來源: Nature
80 億參數打敗 GPT-4o:Nature 論文證明 AI 不是越大越好

封面圖

本文整理自華盛頓大學與艾倫人工智慧研究所(AI2)團隊 2026 年 2 月發表於 Nature 的研究論文。本文為 OpenScholar 系列第二篇,聚焦「小模型為什麼能贏」的技術啟示。系列其他文章:引用幻覺問題AI vs 人類專家評測


一個 80 億參數的模型,憑什麼贏?

在 AI 產業,有一個幾乎沒人質疑的假設:模型越大,表現越好。OpenAI 的 GPT-4o 據估計有數千億參數,Google 的 Gemini 系列規模更大,各家實驗室都在比誰能堆出更龐大的模型。邏輯很直接:更多參數意味著更多知識、更強的推理能力。

但 2026 年 2 月 4 日發表在 Nature 上的一篇論文,直接挑戰了這個假設。華盛頓大學與艾倫人工智慧研究所(AI2)的研究團隊,用一個僅有 80 億參數的開源模型 OpenScholar-8B,在科學文獻綜述這項高度專業化的任務上,全面擊敗了 GPT-4o。正確性高出 6.1 個百分點,引用文獻的幻覺率從 78-90% 降到 0%,而每個問題的處理成本只需 0.003 美元,大約是新台幣一毛錢。

一個參數量可能差了幾十倍的模型,在一個需要深度知識和精確引用的專業任務上,把產業頂尖的通用模型打得落花流水。這到底是怎麼回事?

通用模型的結構性弱點

要理解 OpenScholar-8B 為什麼能贏,得先理解 GPT-4o 在這類任務上為什麼會輸。大型語言模型的知識來自預訓練階段「讀過」的文本。GPT-4o 確實讀過大量的學術論文,但這些知識被壓縮儲存在模型的參數裡,和它讀過的網路文章、小說、社群媒體貼文混在一起。當你問它一個科學問題時,它做的事情是「從記憶中回想」——就像你考試時回憶課本內容一樣。問題是,人類回憶課本也會出錯,何況是把海量 token 的知識壓縮進有限的參數空間裡。

這種「從記憶回想」的機制有幾個根本性的弱點。最基本的問題是知識有截止日期:模型預訓練完成後,新發表的論文它不知道。學術研究是快速演進的領域,一年前的最新進展可能已經被後續研究推翻或延伸。

更棘手的是記憶混淆。模型可能把兩篇不同論文的資訊混在一起,或把 A 作者的研究結果張冠李戴到 B 作者頭上。但最致命的弱點在於「腦補」:當它找不到精確的記憶時,它不會說「我不知道」,而是根據統計模式生成一個「看起來合理」的答案,包括捏造根本不存在的論文引用。OpenScholar-8B 繞過了所有這些問題,因為它根本不從記憶中回答問題。

先查再答:三層檢索管線

OpenScholar 的核心設計理念是:不要讓模型猜,讓它查。在回答任何科學問題之前,系統會先從一個包含 4,500 萬篇開放取用論文、共計 2.36 億個段落的資料庫中搜尋相關文獻。這個資料庫會持續更新,所以不存在「知識截止日期」的問題。

檢索過程分成三層,每一層都有明確的功能。第一層是速度層:一個 1.1 億參數的雙編碼器(bi-encoder)把查詢和所有段落各自編碼成向量,用近似最近鄰搜尋在 2.36 億個段落中快速篩出前 70 個候選。這一步追求的是「不漏掉」——寧可選多也不要遺漏重要的文獻。

第二層是多元化層:系統同時用 Semantic Scholar 的 API 做關鍵字搜尋,再用 You.com 的搜尋引擎限定學術網站做補充搜尋。為什麼需要三個不同的搜尋來源?因為每種搜尋方式都有盲點。向量搜尋擅長找語義相似的內容,但可能漏掉用詞不同卻高度相關的論文。關鍵字搜尋能抓到精確的術語匹配,但對同義詞和跨領域的關聯比較弱。網路搜尋則能觸及最新的預印本和尚未被學術資料庫收錄的研究。研究團隊的消融實驗證實,把三個來源結合在一起時,事實準確度和引用品質都達到最高。單獨使用任何一個來源,表現都會明顯下降。

第三層是精準層:一個 3.4 億參數的交叉編碼器(cross-encoder)把查詢和每個候選段落一起編碼,做更精確的相關性評估。交叉編碼器的計算成本比雙編碼器高得多,因為它需要對每一對查詢-段落組合做完整的 Transformer 運算。但付出這個代價是值得的:消融實驗顯示,拿掉交叉編碼器是所有元件中對表現影響最大的改動。

自我回饋:讓小模型學會自我糾正

光有好的檢索還不夠。小模型的生成能力畢竟有限,第一次寫出來的回答可能遺漏重要的面向或對某些論點的論述不夠充分。OpenScholar 用了一個巧妙的機制來彌補:自我回饋推理(Self-Feedback Inference)。

具體流程是這樣的。模型先根據檢索到的文獻產生初稿,然後扮演「審稿人」的角色,審視自己的初稿,產生最多三條具體的改進建議。這些建議不是抽象的「寫好一點」,而是指向具體的問題——比如「第二段關於蛋白質結構預測的論述缺少 2025 年以後的新進展」或「關於深度學習在氣候模型中的應用,目前只引用了一篇文獻,需要補充更多支持」。然後,系統會根據這些建議進行新一輪的檢索,找到補充資料後修訂回答。最後,還有一個引用驗證步驟,逐一確認每個引用是否真實存在且確實支持其所附著的論述。

這個設計讓一個 80 億參數的模型,透過多輪迭代的方式,逐步逼近一個更大模型一次性產出的品質。這像是用「認真」來彌補「聰明」的差距。一個勤奮的研究助理可能不如天才那麼聰明,但如果他願意反覆檢查、持續改進,最終產出的品質可能更好。

訓練策略:用大模型教小模型

OpenScholar-8B 的訓練也很有講究。研究團隊用 Llama 3.1 70B(一個大了近九倍的模型)搭配整套檢索管線來生成訓練資料,然後用兩步篩選機制確保資料品質。第一步是成對篩選:只保留模型經過自我回饋修訂後「變好了」的樣本。第二步是品質篩選:用一套評分標準(組織性和事實精確度各佔 5 分),只保留平均分達到 4.5 分的樣本。最終從大量生成的候選中篩出 13 萬條高品質訓練實例。

另一個關鍵的訓練決策是「混合」。如果只用學術文獻綜述的資料來訓練,模型會喪失一般的語言理解和指令遵循能力。研究團隊用 50% 的學術訓練資料搭配 50% 的通用指令微調資料,讓模型在變得擅長學術任務的同時,保持作為一個通用語言模型的基本能力。

這個「用大模型的知識蒸餾到小模型」的策略,本身就是目前 AI 產業的一個重要趨勢。你不需要在推理時跑一個巨大的模型,只要在訓練時借用大模型的能力就好。推理成本直接決定了系統的可部署性:OpenScholar-8B 每個問題 0.003 美元的成本,讓任何研究機構都負擔得起。相比之下,PaperQA2 每個問題 0.3 到 2.3 美元的成本,對於頻繁使用的研究者來說是一筆不小的開支。

Scaling 之外,還有別的路

這篇論文出現的時機很有意思。2025 年下半年到 2026 年初,AI 產業最熱門的辯論之一就是「Scaling 是不是撞牆了」。有人說預訓練的 Scaling Laws 已經觸及資料和算力的天花板,有人說推理時的 Scaling 才剛開始。OpenScholar 提供了一個不同的視角:也許該問的問題不是 Scaling 走不走得下去,而是 Scaling 是不是唯一的路。

說到底,OpenScholar-8B 的成功是「系統工程」的勝利。它贏 GPT-4o 靠的不是原始推理能力——80 億參數在這方面當然比不上 GPT-4o。它贏是因為系統架構消除了通用模型在這個特定任務上的結構性弱點。檢索管線解決了知識過時和幻覺的問題,自我回饋機制彌補了生成品質的差距,引用驗證確保了輸出的可信度。每一個元件都不是什麼驚天動地的技術突破,但組合在一起,一個小模型在專業任務上全面碾壓了一個大模型。

如果你在做一個特定領域的 AI 應用——醫療診斷、法律檢索、財務分析——你不一定需要追求最大的通用模型。一個經過專業化訓練的小模型,搭配為特定任務量身設計的檢索和驗證系統,可能在成本低兩到三個數量級的情況下,提供更好的結果。

當然,科學文獻綜述是一個特別適合 RAG 架構的場景。答案就在那些論文裡,模型需要的是找到它們並正確引用,而非進行創造性的推理。OpenScholar 的經驗不能直接推廣到所有任務。但這篇 Nature 論文的核心訊息很直接:在 AI 的世界裡,「更大」不等於「更好」。有時候,「更聰明地用小模型」才是正確的答案。