Scaling Laws 沒死,但遊戲規則變了——Gemini 3 研究負責人的第一手觀察
針對「Scaling Laws 已死」的討論,Gemini 3 預訓練負責人 Sebastian Bourgeaud 提出不同觀點:規模擴張仍然有效且可預測,但架構創新和數據創新的影響可能更大。真正的範式轉變是從「數據無限」進入「數據受限」時代,這讓研究變得更加多元化。
本文整理自《The MAD Podcast with Matt Turck》2025 年 12 月 18 日播出的單集,訪談來賓為 Google DeepMind Gemini 3 預訓練負責人 Sebastian Bourgeaud。
「這些討論對我來說很奇怪」
2024 年底到 2025 年初,科技圈瀰漫著一種焦慮:Scaling Laws 是不是到頂了?預訓練是不是撞牆了?各種「AI 泡沫即將破滅」的論調甚囂塵上。
Sebastian Bourgeaud 對這些討論感到困惑。作為 Google DeepMind Gemini 3 預訓練的負責人,他每天都在與這些模型的極限搏鬥,而他的經驗告訴他完全不同的故事。「這些討論對我來說一直很奇怪,因為我的經驗不是這樣的,」他說。
當然,Bourgeaud 也不是說外界的擔憂毫無根據。他承認過去人們可能「高估」了純規模擴張的重要性。規模確實重要,而且效果可預測——這正是 Scaling Laws 告訴我們的。但規模不是唯一重要的事,可能也不是最重要的事。遊戲規則正在改變,但這不意味著遊戲結束了。
Scale 依然重要,但它被高估了
什麼是 Scaling Laws?簡單說,研究人員觀察到一個穩定的現象:當你增加模型的參數量、訓練資料量、和運算量時,模型的表現會以一種可預測的方式提升。這個經驗觀察已經被反覆驗證,成為各大 AI 實驗室投入數十億美元建設超大規模運算叢集的理論基礎。
Bourgeaud 確認這個定律仍然成立。當 Gemini 3 發布時,它證明了預訓練 Scaling Laws 在又一個數量級上依然有效。這對整個產業的信心至關重要,因為目前所有的大規模資本支出,都是基於這個定律會繼續成立的假設。
但 Bourgeaud 也指出了一個重要的修正:「架構創新和數據創新,對預訓練性能的影響可能比純規模還要大。」這句話的意思是,如果你只是把模型做大、把數據餵多、把算力堆上去,你確實會得到改進,但這個改進可能不如聰明地改進架構或更有效地使用數據來得顯著。
這個觀點解釋了為什麼 Gemini 3 能夠取得如此大的進步,卻沒有靠著什麼「突破性發明」。不是一個大改變,而是許許多多的小改進——在架構上、在數據處理上、在訓練方法上——加在一起產生了巨大的累積效果。
真正的變化:從「數據無限」到「數據受限」
如果要指出一個真正的範式轉變,Bourgeaud 認為是這個:AI 研究正在從「數據無限」的時代,進入「數據受限」的時代。
在過去幾年,大型語言模型的訓練遵循一個簡單的邏輯:收集更多數據、訓練更大模型、投入更多算力。網路上有海量的文字資料可以抓取,似乎永遠不會用完。在這種情況下,規模擴張是最直接的進步路徑。
但這個假設正在動搖。高品質的訓練數據並非無限。當你已經把網路上大部分有價值的文字都用過一遍之後,繼續擴張數據就變得困難。這個限制正在迫使研究者重新思考問題。
Bourgeaud 指出,這種轉變讓許多在 LLM 之前時代發展出來的研究方法重新變得相關。在 ImageNet 時代,研究者就是在數據受限的情況下工作——你有一個固定大小的數據集,必須想辦法從中榨取最多的性能。那個時代發展出的各種數據增強技術、正則化方法、課程學習策略,現在又有了新的應用場景。
這不是倒退,而是進入一個更成熟的研究階段。當你不能靠著「更大更多」來解決問題時,你就必須變得更聰明。
合成數據:機會與陷阱並存
既然真實數據開始受限,合成數據自然成為熱門話題。用 AI 生成的數據來訓練 AI,聽起來是個繞過數據瓶頸的好方法。但 Bourgeaud 對此持謹慎態度。
「使用合成數據必須非常小心,因為很容易用錯方式使用它。」他說。合成數據的典型用法是用一個強模型生成數據,然後用這些數據來訓練較小的模型或做小規模實驗驗證。這種用法相對安全。
但真正困難的問題是:你能不能用合成數據訓練出一個比生成這些數據的模型還要強的模型?這是一個核心挑戰。如果合成數據只是「蒸餾」了原始模型的能力,那它最多只能幫你追平,無法超越。要真正突破,合成數據必須以某種方式提供原始模型沒有的東西。
Bourgeaud 表示他們在這個方向投入了大量研究,但沒有透露具體進展。這個問題的答案,可能會決定下一階段 AI 進展的速度。
儘管如此,Bourgeaud 明確表示:「我不認為我們正在用完數據。」這個說法可能暗示他們找到了某些方法來擴展有效數據的邊界,只是不方便公開討論。
評估的困難:預訓練的改進真的會保留到最後嗎?
還有一個技術上的挑戰值得一提。在預訓練階段,研究者需要評估各種改進是否有效。但問題是,預訓練只是第一步,之後還有後訓練(post-training)階段會進一步調整模型。一個在預訓練階段看起來有效的改進,在經過後訓練之後還會保留嗎?
這個問題比聽起來更棘手。Bourgeaud 解釋,評估指標需要準確預測兩件事:一是當模型規模擴大時,這個改進是否還會有效;二是當模型經過後訓練之後,這個改進是否還會體現出來。這需要在評估方法上投入大量的思考和實驗。
從組織的角度看,這也意味著預訓練團隊和後訓練團隊之間需要緊密的協調。一個孤立優化的預訓練可能在整合進完整系統時失去效果,反之亦然。這種系統複雜性是當前大型模型研究的特徵之一。
範式轉變不是終點,是新的起點
回到最初的問題:Scaling Laws 死了嗎?
根據 Bourgeaud 的觀察,答案是否定的。規模擴張仍然有效,仍然可預測,仍然是讓模型變好的重要因素。但純規模擴張不再是唯一的進步路徑,可能也不是最高效的路徑。
真正發生的是一個範式轉變:從「數據無限、規模為王」的時代,進入「數據受限、創新為王」的時代。這個轉變讓研究變得更加多元化——架構創新、數據效率、合成數據、長上下文能力、注意力機制改進——每一個方向都可能帶來顯著的進展。
對於那些期待「Scaling Laws 撞牆」會讓 AI 競賽暫停的人來說,這個觀察可能令人失望。競賽不會暫停,只是賽道變了。過去靠著「誰有更多 GPU、誰能收集更多數據」來競爭的遊戲,正在變成「誰能更聰明地使用手上的資源」的遊戲。
這可能是好消息,也可能是壞消息,取決於你怎麼看。但有一件事是確定的:這場遊戲還遠遠沒有結束。