從數據到信仰:「規模假說」如何成為 AI 時代的中心教條
2020 年 5 月,匿名部落客 Gwern Branwen 發表萬字長文《The Scaling Hypothesis》,把 Scaling Laws 的經驗觀察推演成一套完整的哲學假說:只要繼續放大模型,智慧就會湧現。這篇文章精準預言了 GPT-3 到 GPT-4 的發展軌跡,也為矽谷的千億美元豪賭提供了思想彈藥。但六年後回看,規模假說的預言對了多少、又遺漏了什麼?

本文為「AI 經典文獻回顧」系列第十一篇。上一篇見〈一篇論文,拆出了 Anthropic:Scaling Laws 背後的人與路線之爭〉。

一場看不見的信念戰爭
2020 年 5 月,AI 社群正在進行一場沒有明說的辯論。
四個月前,Jared Kaplan 等人發表了 Scaling Laws 論文,用三條冪律曲線證明語言模型的表現可以隨規模穩定提升。但「可以提升」和「應該一直放大」是兩件事。論文畫出了曲線,卻沒有回答一個更根本的問題:如果我們沿著這條曲線一直走下去,盡頭是什麼?是一個很會預測下一個字的統計機器,還是某種真正的智慧?
大多數 AI 研究者的直覺答案是前者。機器學習推特上的主流態度是:大模型只是暴力工程,不是科學突破。真正的 AI 進展需要的是更聰明的演算法,不是更大的 GPU 叢集。這種觀點有它的道理——深度學習的歷史上,每隔幾年就有人宣稱「規模就是一切」,然後被現實打臉。
就在這個時候,一篇近萬字的部落格文章悄悄上線了。作者署名 Gwern Branwen,沒有人知道他的真名。文章標題是《The Scaling Hypothesis》——規模假說。
匿名的先知
Gwern Branwen 是 AI 世界裡最奇特的存在之一。他從來不以真名示人,沒有大學教職,沒有實驗室頭銜,靠 Patreon 贊助維生,年收入大約一萬兩千美元。他的日常是閱讀大量論文——用他自己的話說,「讀論文讀到眼睛流血」——然後在自己的網站 gwern.net 上寫出極其詳盡的長文分析。
這個描述聽起來像是一個邊緣人物。但如果你去問那些真正在建造大語言模型的人——OpenAI 的研究員、Anthropic 的工程師、DeepMind 的科學家——他們當中相當多人會告訴你,Gwern 是他們長期追蹤的思想來源之一。在 2024 年 11 月上 Dwarkesh Patel 的 Podcast 時,Gwern 的身份反差被攤開來談:一個年薪不到台幣四十萬的匿名寫作者,對 AI 發展軌跡的預測準確度,超過了絕大多數領薪水的專業分析師。
他的可信度不是來自頭銜,而是來自紀錄。從 2010 年代中期開始,Gwern 就在持續追蹤深度學習每一個領域的進展——從 GAN 生成圖片到強化學習玩遊戲——並且反覆觀察到同一個模式:不管是什麼任務、什麼架構,只要你把模型做大、數據餵多、算力砸夠,表現就會提升。不是偶爾,而是每一次。他在 Dwarkesh 的訪談裡回憶,看到 GPT-2 的生成結果時,他的反應是「holy shit」;看到 GPT-3 的 few-shot 學習曲線時,他確信了:「我們活在一個 scaling 的世界裡。」
《The Scaling Hypothesis》就是他把多年觀察凝結成系統性論述的嘗試。
從經驗觀察到哲學假說
要理解 Gwern 這篇文章的位置,得先把它放進一條思想線裡。
2019 年 3 月,理察.薩頓(Richard Sutton)發表了〈苦澀的教訓〉,用七十年的 AI 歷史論證一個觀點:人類研究者總想把自己的知識塞進 AI 系統,但長期來看,利用算力的通用方法永遠會贏。這是一個歷史歸納。2020 年 1 月,Kaplan 等人的 Scaling Laws 論文把這個歸納變成了數學:語言模型的表現與參數量、數據量、算力之間存在可預測的冪律關係。這是一個經驗測量。
Gwern 做的事情是把歸納和測量往前推一步,變成一個假說:這些冪律關係不只是統計巧合,它們指向一個更深層的事實——智慧本身就是規模的產物。你不需要發明什麼特殊的演算法模組來實現 AGI,你只需要拿一個夠大的神經網路,餵夠多的數據,給夠多的算力,智慧就會自然湧現。
這聽起來粗暴得不像話。但 Gwern 的論證並不粗暴。
他的核心概念之一是「規模的祝福」(Blessings of Scale)。在深度學習裡,有一個違反直覺的現象:困難的問題有時候比簡單的問題更容易解決。一個小模型可能連基本的語法都學不好,但一個大十倍的模型不只學會了語法,還順帶學會了常識推理和算術。這不是因為大模型「更努力」,而是因為規模本身改變了學習的性質——當數據夠多、模型夠大,表面的統計相關性和深層的因果結構會被一起捕捉到。區分這兩者需要的,正是足夠的資訊容量。
他的另一個關鍵論證來自資訊理論。語言模型的任務是預測下一個字(token)。GPT-3 在 2020 年的預測精度大約是每個字元 1.73 位元(bits per character),而人類的表現大約在 0.7 位元左右。Gwern 的推理是:要從 1.73 縮小到 0.7,模型不可能只靠記住更多的表面模式。「每一次模型預測冰淇淋會融化而不是凝固,」他寫道,都代表模型沒有理解基本的物理直覺。要消除這些錯誤,模型必須發展出對因果關係、邏輯推理、常識知識的某種理解。沒有捷徑——你找不到其他方式能在不理解世界的情況下達到人類水準的預測精度。用 Gwern 的話來說,真理只有一個,但錯誤有無數種,而規模迫使模型走向真理。
信念的鴻溝
Gwern 在文章中花了大量篇幅討論一個看似非技術性的問題:為什麼擁有最多 GPU 的公司——Google 和 DeepMind——不是第一個做出 GPT-3 的?
他的答案不是技術能力,而是信念。Google Brain 和 DeepMind 持有的是「弱版規模假說」:他們認為 AI 的進展需要發現正確的演算法模組,然後把這些模組組合起來,規模只是其中一個因素。這種觀點認為,通往 AGI 的路上有很多關鍵的演算法突破等待被發現,不是光靠放大就能走通。DeepMind 的策略是用幾十年的時間「穩步咀嚼」各個智慧模組——感知、記憶、規劃、推理——逐一攻克再整合。
OpenAI 在 Ilya Sutskever 的影響下,押注的是「強版規模假說」:只要架構大致正確(Transformer 已經提供了),剩下的就是規模問題。這不是一個被嚴格證明的結論,而是一個信念驅動的賭注。Gwern 觀察到,在 2020 年的 AI 社群裡,支持強版假說的人是少數——他們在學術會議上會被嘲笑,在推特上會被糾正。但他們掌握了最重要的東西:行動的意願。
Gwern 把這種差異稱為 conviction gap——信念的鴻溝。他的論點是:在 scaling 的世界裡,技術差距不是最致命的,信念差距才是。Google 有更多的 GPU、更好的基礎架構、更多的頂尖人才,但他們缺少的是一個清晰而大膽的判斷:「我們相信只要繼續做大就會到達某個地方。」而 OpenAI 有這個判斷,所以他們先做了 GPT-3。
這個觀察在後來的歷史中被反覆驗證。2022 年 DeepMind 的 Chinchilla 論文修正了 Scaling Laws 中數據和參數的最佳比例,卻沒有搶先推出能與 ChatGPT 競爭的產品。2023 年 Google 的工程師在內部備忘錄中寫下「我們沒有護城河」。每一次,問題都不是能力不足,而是缺乏孤注一擲的信念。
2026 年的預測得分卡
站在 2026 年 2 月回頭看,Gwern 在六年前寫下的這篇文章,預測準確度高得令人不安。
他對了什麼?幾乎所有核心論點。他在文章中大膽斷言,繼續擴大規模的語言模型將展現出 few-shot 和 meta-learning 能力——GPT-3 的實際表現立即印證了這個判斷。他預測繼續擴大規模會帶來質變而非量變——GPT-4 的推理能力和 Claude 3 的長文理解能力證實了這一點。他預測影像生成、音樂生成、多模態能力都會隨 scaling 突破——2022 年的 DALL-E 2、2024 年的 Sora、Gemini 2.0 依序兌現。他在 2022 年的回顧文章裡預測影片生成會是下一個被 scaling 攻破的堡壘,而 OpenAI 的 Sora 在不到兩年後就做到了。
他甚至預測了 AI 軍備競賽的社會動力學。他在原文中用了「史普尼克時刻」(Sputnik moment)這個詞——某個突破性的展示會迫使所有競爭者放下矜持、全力投入。2022 年 11 月 ChatGPT 的發布完美符合這個描述,逼迫 Google 在幾週內倉促推出 Bard。
但他也有看走眼的地方。他承認自己低估了企業公開部署強大模型的意願:他原本預測大公司會因為公關風險而把最強的模型藏在內部,結果 ChatGPT 的成功證明了直接面向消費者的策略才是正確的。他也沒有預見到推理時計算(inference-time compute)會成為 scaling 的新維度——2024 年 OpenAI 的 o1 模型開啟了一個全新方向:不只在訓練時放大規模,也在推理時投入更多算力來「思考」更久。這條路線不是對規模假說的否定,而是對它的擴展——但 Gwern 在 2020 年沒有想到這一層。
他在時間線上也偏樂觀。他在原文中引用莫拉維克(Hans Moravec)的預測,推算人類水準的語言預測可能在 2027 年左右實現,並提出 2038 年是另一個可能的時間點。到 2026 年為止,我們還沒有達到人類水準的語言預測,但 Anthropic 在 2024 年底提出「2028 年是合理的個人規劃起點」,跟 Gwern 當年的樂觀推算差距不大。Gwern 自己在 2024 年的 Dwarkesh 訪談裡也認可這個時間框架。
為什麼局外人看得見
Gwern 的故事提供了一個值得深思的反例。他沒有 GPU 叢集,沒有研究團隊,沒有大學的牌子,年收入低於美國貧窮線。但他在 2020 年寫下的判斷,比 Google 的高薪研究員、比大多數風投分析師、比絕大多數學術圈的 AI 教授都更接近六年後的現實。
這不是什麼天才故事。Gwern 自己說得很清楚:他做的事情就是大量閱讀、持續追蹤、然後把散落在不同領域的線索串起來。他沒有發明 Transformer,沒有訓練過任何模型,沒有跑過一次大規模實驗。他做的是綜合(synthesis)——把薩頓的〈苦澀的教訓〉、Kaplan 的 Scaling Laws、OpenAI 的 GPT 系列實驗結果、以及深度學習在視覺、語音、遊戲等各領域的 scaling 經驗,整合成一個連貫的敘事,然後勇敢地把這個敘事推到極致。
體制內的人反而做不到這一點。Google 的研究員知道 Scaling Laws,也有能力訓練比 GPT-3 更大的模型,但他們受困於組織內部的風險迴避文化和「等我們先發明更好的演算法」的路徑依賴。學術界的 AI 教授對 scaling 嗤之以鼻,因為「把模型做大」不像「發明新架構」那樣能發頂會論文。在這些體制化的盲點中,一個匿名部落客反而擁有最重要的自由:他可以不管主流怎麼想,直接跟隨證據得出結論。
但規模假說的故事還沒有結束,因為它即將迎來最猛烈的挑戰。就在 Gwern 宣告 scaling 是通往 AGI 的路之後不到一年,另一群研究者發表了一篇論文,標題裡有一個令人難忘的意象:隨機鸚鵡。她們的論點是,不管你把模型做得多大,它終究只是在模仿語言的統計結構,而不是在理解任何東西。這場辯論——規模能否產生理解——至今仍未結束。
我們在下一篇會介紹 Bender 等人的〈隨機鸚鵡〉論文,以及它引發的那場改變了 Google AI 倫理團隊命運的風暴。