AI 產業動態

Scaling Law 的下一章:讓 AI 自己做實驗

Pre-training 的 Scaling Law 正在飽和,下一個突破在哪?Lila Sciences 技術長 Andy Beam 認為答案是讓 AI 自己做實驗。他們正在打造結合 GPU 叢集與自動化實驗平台的新系統,目標是讓 AI 能生成自己的訓練資料。這是對 Scaling Law 的全新詮釋。

來源: NEJM AI Grand Rounds

本文整理自《NEJM AI Grand Rounds》2025 年 7 月播出的單集。


大型語言模型能通過美國醫師執照考試。這件事在 2020 年還是科幻小說,到了 2024 年已經沒有人會驚訝。但這裡有一個問題:通過考試是一回事,發現新藥是另一回事。

LLM 能告訴你教科書裡寫了什麼,但它不能告訴你教科書還沒寫的東西。它能從現有文獻中找出最合理的假說,但它不能告訴你哪個假說是對的。要知道答案,你還是得做實驗。

這是 Lila Sciences 技術長 Andy Beam 正在解決的問題。他的團隊正在打造一套系統,讓 AI 不只是讀論文,而是能自己設計實驗、自己執行、自己學習。這是他所謂的「新 Scaling Law」——當 pre-training 的邊際效益越來越低,下一個突破可能來自讓模型生成自己的訓練資料。

Pre-training 的極限

先退一步,理解現在 AI 發展的瓶頸在哪。

過去幾年 AI 的爆發式成長,靠的是一個經驗觀察:當你增加模型參數、訓練資料、和運算量,模型表現會以可預測的方式提升。這就是 Pre-training Scaling Law。OpenAI、Google、Anthropic 投入數十億美元建造超大規模運算叢集,都是基於這個定律會繼續成立的假設。

但這個定律是 Power Law,指數關係。這意味著每一代要獲得同樣的進步,你需要把算力再擴大一個數量級——從一萬張 GPU 到十萬張,從十萬張到一百萬張。Meta 預計 2025 年底要部署 130 萬張 GPU,但即使如此,進步幅度可能也不會比以前更大。

更麻煩的是,我們其實不知道這個定律為什麼會成立。Beam 用一個比喻來形容這種認知狀態:古埃及人能精確測量太陽的運行軌跡,精確到能把金字塔的東西軸對準春分點。但他們不懂軌道力學,不知道地球繞著太陽轉。我們對 Scaling Law 的理解,就處在類似的階段——精確測量,但缺乏根本性理解。

既然不知道它為什麼成立,我們也無法確定它什麼時候會失效。

推理模型只是過渡

業界已經開始找新的 Scaling 方向。最明顯的嘗試是推理模型——OpenAI 的 O 系列、Google 的 Gemini Thinking、Anthropic 的 Claude 3.5 with extended thinking。這些模型不只是預測下一個 token,而是在回答問題時會「想很久」,產生更多中間推理步驟。

推理模型的訓練方式不同於 pre-training。Pre-training 是預測「平均」的回應,推理模型是訓練出「正確」的回應。它需要驗證器來判斷答案對不對,然後用強化學習來優化。這就是所謂的 test-time compute:你把更多算力花在推理階段,而不只是訓練階段。

這確實有效。在數學、程式設計這類有明確正確答案的任務上,推理模型大幅超越純 pre-training 的模型。

但這裡有個關鍵限制:你需要驗證器。對數學題來說,驗證很簡單——答案對就是對,錯就是錯。對程式來說,跑過測試案例就知道。但對科學問題呢?當你問「這個分子能不能治療癌症」,沒有任何現有的驗證器能回答這個問題。

唯一的驗證器是大自然本身。你必須做實驗。

LLM 是人類知識的索引

讓我們從更根本的層面來看 LLM 的限制。

LLM 本質上是人類知識的絕佳索引。它讀過幾乎所有公開發表的文字,能用一種模糊但有效的方式檢索這些知識。你問它任何問題,它都能從訓練資料中找出最相關的模式,組合成一個聽起來合理的答案。

但這也是它的天花板。它只能輸出訓練資料的某種組合,不能產生訓練資料中沒有的東西。

從因果推論的角度來看,LLM 學到的是觀察性資料。觀察性資料的問題在於:它只能告訴你相關性,不能告訴你因果關係。你可以從資料中看出「A 和 B 同時出現」,但你無法確定是 A 導致 B、B 導致 A、還是有個 C 同時導致了 A 和 B。

要從相關性推到因果,你只有兩條路:一是做很強的假設(這是傳統因果推論方法學在做的事),二是做實驗(隨機分組、控制變因、觀察結果)。LLM 無法自己做實驗,所以它永遠停留在「哪些假說和現有資料相容」這個層次,無法進一步分辨哪個假說是對的。

科學文獻本身也有問題。它不是事實的記錄,而是一場辯論的紀錄。研究者有動機發表對自己假說最有利的版本,有動機淡化不一致的發現。A 發了一篇論文說某個效果存在,B 發一篇說不存在,C 又發一篇說在某些條件下存在。LLM 讀完這些論文,能告訴你這場辯論的現狀,但它沒辦法告訴你誰是對的。

你不可能光靠讀論文就推導出 2050 年的科學長什麼樣子。你需要一步一步做實驗——驗證、推翻、修正、再驗證。

Lila 的解法:實驗叢集

這就是 Lila Sciences 在做的事:打造一個讓 AI 能自己做實驗的系統。

公司有兩大部門,一半專注於可規模化的實驗平台,另一半專注於 AI 模型。Beam 把實驗平台比喻成「新型電腦」。核心是一套自動化系統:96 孔或 384 孔的實驗板透過磁懸浮,在一條軌道上高速移動。軌道旁邊是各種實驗設備——培養箱、分析儀、定序機——機器手臂負責把板子從軌道拿起來、放進設備、做完實驗再放回去。

那條軌道就像電腦裡的 PCI 匯流排。你可以在上面「插」各種實驗設備,就像在 PCI 匯流排上插顯示卡、網卡一樣。設備之間的資料傳遞,就像電腦內部的資料傳輸。

關鍵是規模。Lila 不是要建幾個這樣的工作站,而是要建整棟大樓的工作站。當你有成千上萬個自動化實驗站,它們全部連上網路、由 AI 控制,你就得到了一個「實驗叢集」——就像你有 GPU 叢集一樣。

把實驗叢集和 GPU 叢集配對,你就得到了一種全新的運算範式。GPU 叢集負責訓練模型、生成假說;實驗叢集負責驗證假說、產生新資料;新資料再回饋給 GPU 叢集,訓練出更好的模型。這是一個閉環,AI 可以自己生成自己需要的訓練資料。

這就是 Beam 說的「新 Scaling Law」。Pre-training 靠的是人類產生的資料——書、論文、網頁。這些資料有上限,總有讀完的一天。但如果 AI 能自己做實驗、自己生成資料,那上限就不存在了。

真實世界的困難

當然,這聽起來比做起來容易多了。

真實世界的實驗不像數位世界那樣乾淨。那些實驗板裡面有液體,液體會晃動。晃動會讓板子的位置產生偏移,機器手臂要拿的時候,它可能不在預期的地方。像這樣的邊緣案例有成千上萬個,每個都要解決。

更根本的問題是:現有的所有實驗室自動化設備,都是為人類設計的。實驗台為什麼在那個高度?因為人要站著操作。設備之間為什麼有走道?因為人要走過去。試劑瓶為什麼那個形狀?因為人的手要能握。

當你想打造一個完全由 AI 控制、沒有人類參與的實驗室,這些設計假設全部要重新思考。這是一個沒有人做過的工程問題。

Beam 坦言,這是他現在最大的挑戰。AI 的部分他有信心——大規模訓練很難,但那是已知的困難,有成熟的方法論。實驗平台的部分是未知的困難,因為從來沒有人設計過「為 AI 優化的實驗室」。

科學也服從 Bitter Lesson

AI 領域有一個著名的觀察叫 Bitter Lesson(苦澀的教訓),來自強化學習之父 Rich Sutton。它的意思是:長期來看,利用算力的通用方法,總是打敗利用人類知識的特定方法。

下棋就是最好的例子。早期的電腦下棋程式,靠的是讓專家把棋理寫成規則,手動編碼各種策略。這種方法有用,但進步緩慢。後來出現了純粹靠搜尋和學習的方法——給電腦夠多算力,讓它自己跟自己下,它就能發現人類從沒想過的下法。AlphaGo 和 AlphaZero 證明了這條路能走多遠。

Beam 認為科學也服從 Bitter Lesson。問題是,科學的「算力」是什麼?

對訓練模型來說,算力就是 GPU。但對科學來說,算力還包括做實驗的能力。GPU 叢集讓你能跑更多計算,實驗叢集讓你能跑更多實驗。兩者結合,才是科學版的「規模化」。

這就是 Lila 在賭的東西:科學研究的下一個 Scaling Law,來自讓 AI 能夠大規模地與真實世界互動。

這會改變什麼

如果 Lila 的願景成真,影響會遠超過科學研究本身。

首先是藥物研發。現在開發一種新藥平均需要 10-15 年、20-30 億美元,成功率不到 10%。大部分時間和金錢都花在試錯——測試各種分子組合,看哪個有效。如果 AI 能自己做實驗、自己學習,這個週期可能大幅縮短。

然後是材料科學。電池、半導體、太陽能板——這些領域的進步都受限於材料的發現速度。如果你有一個能 24 小時自動做實驗的系統,材料的探索空間會爆炸性擴大。

再來是基礎科學。很多科學問題之所以難,是因為需要做太多實驗,人類的時間和精力不夠。有了自動化實驗平台,你可以探索以前沒辦法探索的參數空間。

當然,這些都還是願景。Lila 成立沒幾年,還在早期階段。但願景本身就很有意思:它代表了對 AI 發展方向的一種全新思考——不只是讓模型更大、讀更多資料,而是讓模型能夠與世界互動、從互動中學習。


Beam 在訪談中說了一句話:「我們對 Scaling Law 的理解,就像古埃及人對太陽的理解。」

古埃及人不懂軌道力學,但這不妨礙他們建造金字塔。我們不懂 Scaling Law 為什麼有效,但這不妨礙我們繼續利用它。真正的問題是:當現有的路走到盡頭,下一步往哪走?

Lila 的賭注是:讓 AI 自己做實驗。這可能是對的,也可能是錯的。但至少它是一個清晰的方向,而且是一個需要同時解決硬體和軟體問題的方向。

在一個所有人都在比拼 GPU 數量的時代,有人開始思考「GPU 之外還需要什麼」,這本身就是一件有意思的事。