Demis Hassabis 的 AGI 路線圖:世界模型才是關鍵拼圖
DeepMind 執行長 Demis Hassabis 深度訪談:Scaling Laws 沒有撞牆但報酬遞減、AI 的「鋸齒狀智慧」現象、世界模型為何是通往 AGI 的關鍵,以及 Proto-AGI 的願景。
本文整理自 Google DeepMind Podcast 2024 年 12 月播出的單集,由 Hannah Fry 主持,專訪 DeepMind 共同創辦人兼 CEO Demis Hassabis。
Gemini 2.0 剛發布,外界都在討論這個模型的能力提升。但在這集訪談中,Demis Hassabis 談得最興奮的,其實不是 Gemini 本身。他花了更多時間講「世界模型」——一種能理解物理世界運作方式的 AI 系統。在他看來,這才是通往 AGI 的關鍵拼圖。
這集訪談揭示了 DeepMind 內部怎麼看 AI 發展的路徑。不是單純的「把模型做大」,而是一條更複雜、需要多種技術匯流的道路。
Scaling 沒有撞牆,但報酬確實在遞減
2024 年底,業界流傳著「Scaling Laws 撞牆」的說法。有人認為,單純增加模型參數和訓練資料的效果正在減弱,AI 進步會因此放緩。Hassabis 不同意這個判斷,但他的反駁也不是盲目樂觀。
「我們沒有看到任何牆,」他說,「但確實有報酬遞減。」這兩件事聽起來矛盾,其實不然。報酬遞減不等於報酬歸零。早期每次模型升級可能帶來雙倍的效能提升,現在提升幅度變小了,但依然是「值得投資的顯著改進」。Gemini 2.0 在多項基準測試上的表現,證明持續投入資源仍然有效。
DeepMind 的策略是「50/50」:一半資源投入 Scaling(做大),一半投入 Innovation(做新)。Hassabis 認為,光靠其中任何一邊都無法抵達 AGI。你需要把模型做大,同時也需要研究突破。這個判斷背後有一個關鍵假設:當 Scaling 的效果逐漸遞減,研究創新的相對價值就會上升。而 DeepMind 的優勢一直是研究。過去十年的重大突破——Transformer、AlphaGo、AlphaFold——都是從 Google 或 DeepMind 出來的。
合成數據是他們應對「數據不夠」的方法之一。在數學和程式這類可以驗證答案的領域,AI 系統已經夠好,可以自己生成訓練資料。「理論上可以產生無限的數據,」Hassabis 說。這不是天方夜譚——當你的模型能寫出正確的程式碼,你就能讓它寫更多程式碼來訓練下一代模型。
鋸齒狀智慧:博士程度與高中程度並存
當前 AI 系統有一個令人困惑的特性:它們能在國際數學奧林匹亞拿金牌,卻會在簡單的邏輯問題上犯錯;能寫出複雜的程式,卻數不清一個單字裡有幾個字母。Hassabis 用「Jagged Intelligence」(鋸齒狀智慧)來描述這個現象。
「它們在某些維度上達到博士水準,在另一些維度上連高中都不如,」他解釋。這種不一致性正是目前 AI 尚未達到 AGI 的關鍵原因。一個真正的通用智慧,應該在各種任務上都維持穩定的表現水準,不會在簡單問題上翻車。
為什麼會這樣?原因很多,而且因情況而異。有時候是 tokenization 的問題——模型處理文字的方式讓它「看不到」每個字母,所以數字母會出錯。有時候是訓練資料的偏差——某些類型的問題在訓練資料中很少見,模型就學不好。有時候是推理深度不足——模型傾向於快速給出答案,而不是停下來仔細檢查。
Hassabis 認為「Thinking」(思考)系統是解方之一。這類系統在回答問題前會花更多時間「思考」,產生中間推理步驟。但目前的實作還不夠可靠。「它會花時間思考,但不一定把思考時間用在有用的地方,」他說。理想狀態是系統能自己判斷什麼時候需要深思熟慮、什麼時候可以快速回答,並且會用工具去驗證自己的輸出。
另一個缺失是「知道自己不知道什麼」的能力。AlphaFold 預測蛋白質結構時會附上信心分數,告訴你它對這個預測有多確定。但目前的語言模型沒有這個機制。它們會「硬著頭皮回答」不確定的問題,而不是說「我不知道」。Hassabis 認為,隨著模型變得更強,它們會更了解自己知識的邊界,這個問題有機會改善。
世界模型:語言之外的理解
語言模型能從文字中學到很多關於世界的知識,這點超出了多數人的預期。但 Hassabis 認為,光靠語言還是不夠。有些東西很難用文字描述——物體怎麼移動、液體怎麼流動、手指觸碰桌面的感覺。這些「身體性」的知識,需要另一種學習方式。
「世界模型」是 DeepMind 對這個問題的回答。這是一種能理解物理世界因果關係的 AI 系統——不只是「看起來像」真實世界,而是真正理解重力、慣性、物體碰撞這些基本原理。測試方法之一是讓系統生成影像或影片。如果它能生成物理上合理的場景,某種程度上就證明它「懂」這些規則。
VEO 是 DeepMind 的影片生成模型,Genie 則是可互動的世界模型。Hassabis 對 VEO 處理反射和液體的能力印象深刻——「用肉眼看已經非常真實」。但他也承認,這還不夠精確。如果你用物理學的標準去檢驗,會發現模型是「近似」而非「精確」地遵循物理定律。
他們正在建立「物理基準測試」來量化這個問題。用遊戲引擎生成精確的物理模擬——球滾下斜坡、單擺擺動、物體碰撞——然後測試 AI 模型能否準確預測結果。「就像高中物理實驗,」Hassabis 形容。目前的模型還做不到 100% 準確,這是通往機器人應用的障礙。一個控制機械手臂的 AI,不能只是「大概」懂物理。
Genie + SIMA:兩個 AI 的共舞
DeepMind 做了一個有趣的實驗:把兩個 AI 系統連在一起。Genie 負責生成互動式的虛擬世界,SIMA 是一個能在虛擬世界中執行任務的 AI 代理。當你把 SIMA 放進 Genie 生成的世界裡,就形成了一個自我強化的訓練循環。
SIMA 在世界中探索、嘗試完成任務。Genie 則根據 SIMA 的行動,即時生成對應的環境變化。對 Genie 來說,SIMA 只是一個「玩家」,它不在乎這個玩家是人還是另一個 AI。對 SIMA 來說,Genie 生成的世界就是它的訓練場。這個設計的精妙之處在於:你可以讓 Genie 自動生成無限多的訓練場景,難度逐漸升級,SIMA 就能持續學習新能力。
「想像一下,」Hassabis 說,「自動設定並解決數百萬個任務,難度不斷提升。」這種方法繞過了人工標註訓練資料的瓶頸。傳統的 AI 訓練需要大量人類標註的資料,成本高昂且難以擴展。但如果 AI 能在自己生成的世界裡訓練自己,擴展性就完全不同了。
這個研究方向有多重應用可能。遊戲產業可以用它打造更聰明的 NPC——不是照劇本行動的木頭人,而是能真正理解環境、做出合理反應的角色。機器人領域可以用它預訓練控制系統——先在虛擬世界裡學會操作,再遷移到真實機器人上。Hassabis 還提到,他想把這項技術用回遊戲開發,「這可能一直是我潛意識裡的計畫」。他早年是遊戲設計師出身。
物理幻覺:模擬的下一道關卡
但這裡有一個問題:如果 Genie 生成的世界物理規則不準確,SIMA 學到的東西就沒辦法用在真實世界。這就是「物理幻覺」——模擬看起來合理,但實際上是錯的。
某種程度上,幻覺不全然是壞事。如果你想要創意、想要新奇的內容,一點「幻覺」反而是優勢。但如果你要訓練一個會操作真實機械手臂的 AI,精確度就是生死攸關的事。Hassabis 的解決方向是:用遊戲引擎生成大量「物理正確」的訓練資料,讓模型學會真正的牛頓力學,而不只是「看起來像」牛頓力學。
這項工作還在進行中。當 VEO 和 Genie 能通過高中物理等級的測試時,它們就能成為可靠的機器人訓練環境。在那之前,這些世界模型主要用於內容生成和研究探索。
Proto-AGI:當所有模型匯流
Hassabis 描繪的願景是:把 Gemini(語言理解)、VEO(影片生成)、Genie(互動世界)、SIMA(任務執行)這些目前分開的專案,整合成一個統一的系統。「某個時候我們需要把這些不同的專案收斂成一個大模型,」他說,「那可能就是 Proto-AGI 的候選者。」
這個整合不只是技術上的拼裝,而是讓系統同時具備:理解語言的能力、理解視覺的能力、理解物理世界的能力、在環境中行動的能力。一個真正的通用智慧,應該要能處理所有這些面向,而不是只擅長其中一項。
他們也同時在推進其他「根節點問題」:與 Commonwealth Fusion 合作研究核融合、協助 Google 量子團隊做錯誤校正、探索室溫超導體和新型電池材料。這些聽起來跟 AI 沒有直接關係,但 Hassabis 的邏輯是:AI 可以加速這些基礎科學的突破,而這些突破又會反過來推動更強的 AI。AlphaFold 證明了這條路是可行的。
五到十年。這是 Hassabis 給出的 AGI 時間線。不是最激進的預測,但也不算保守。他似乎很確定方向是對的,剩下的只是執行和時間的問題。
本文為 Demis Hassabis 訪談系列的第一篇。下一篇將探討 AI 對社會經濟的衝擊——為什麼 Hassabis 認為這場變革會比工業革命快十倍。