Jeff Dean 的 35 年 AI 旅程——從大學論文到 Gemini
Google 首席科學家 Jeff Dean 在史丹佛演講,回顧 35 年 AI 歷程:1990 年大學時以為 32 核就能改變世界,結果需要百萬倍運算力。從 Google Brain 的創立、TPU 的誕生、Transformer 的突破,到 Gemini 在 IMO 數學奧林匹克奪金,見證深度學習從實驗室走向改變世界。
本文整理自 Stanford AI Club 邀請 Jeff Dean 的演講。
1990 年,一個大學生以為 32 核就能改變世界
1990 年,Jeff Dean 在大學畢業前寫了一篇關於神經網路的論文。當時他剛接觸到這個領域,立刻被迷住了。「這是一個很棒的抽象概念,」他回憶,「我們可以用它來建構模式辨識系統,解決各種問題。」於是他決定做一個野心勃勃的畢業專題:用系上那台 32 核處理器的電腦來並行訓練神經網路。
他實作了兩種現在我們稱之為「資料平行」(data parallelism) 和「模型平行」(model parallelism) 的訓練方式,研究當處理器數量增加時,訓練速度如何提升。結果呢?「我完全錯了,」Jeff Dean 笑著說,「要訓練出真正好用的神經網路,需要的不是 32 倍的運算力,而是一百萬倍。」
這個「錯誤」說明了一件事:神經網路的潛力比當時任何人想像的都大,但實現這個潛力需要的運算規模,也遠超過 1990 年代的技術能提供的。Jeff Dean 畢業後去做了其他事,但他一直惦記著這個想法。
2012 年,Google 廚房裡的一場對話
二十多年後的某一天,Jeff Dean 在 Google 的員工休息區 (micro-kitchen) 碰到了 Andrew Ng。「嘿 Andrew,你怎麼在這?」Andrew 解釋說他剛開始每週來 Google 一天,還在摸索要做什麼。然後他提到:「我在史丹佛的學生開始用神經網路在語音辨識上取得不錯的成果。」
Jeff Dean 的眼睛亮了起來。「我們應該訓練超大型的神經網路。」
這場廚房對話成為 Google Brain 的起點。當時 Google 的資料中心裡沒有 GPU,只有大量的多核心 CPU。於是他們建構了一個叫做 DisBelief 的軟體系統,讓神經網路的訓練可以分散到數百台機器上執行。
這個系統的運作方式,用 Jeff Dean 的話說,「在數學上完全是錯的」。他們讓兩百個模型副本同時訓練,每個副本會下載當前的參數、用一批資料計算梯度、然後把更新送回參數伺服器。問題是,所有副本都在非同步地做這件事,當你的更新送回去時,參數可能已經被其他一百九十九個副本改過了。
「這讓很多人很緊張,因為這不是你『應該』做的事,」Jeff Dean 回憶,「但它居然有效,所以我們就繼續用了。」
這個「數學上錯誤但實際上有效」的系統,讓 Google 在 2012 年訓練出比當時任何人都大 50 到 100 倍的神經網路。他們拿一千萬張 YouTube 影片的隨機截圖來訓練,完全不給任何標籤,只是讓模型學習如何重建原始圖像。訓練完成後,他們發現模型頂層的某些神經元會對特定概念產生強烈反應——其中一個神經元的最強刺激是貓臉,即使它從來沒被「教過」什麼是貓。這就是著名的「貓論文」(cat paper) 的由來。
當語音辨識變好,世界需要新的晶片
Google Brain 團隊很快就把神經網路應用到語音辨識上,訓練出一個錯誤率遠低於當時 Google 產品的模型。Jeff Dean 做了一個簡單的估算:如果語音辨識變得更好,更多人會想用。假設一億人每天對著手機講三分鐘,我們需要多少運算資源?
答案讓他嚇了一跳:如果用現有的 CPU 來跑這個新模型,Google 需要把資料中心的電腦數量翻倍。只是為了一個功能。
「我們需要專用硬體,」Jeff Dean 意識到。神經網路有一些很好的特性可以被利用:它們對低精度運算很容忍,不需要 32 位元浮點數;而且當時所有的神經網路本質上都是密集線性代數運算——矩陣乘法、向量內積。如果能設計一個晶片專門做低精度的線性代數運算,效率會比通用 CPU 高很多。
於是 Google 開始設計 TPU(Tensor Processing Unit)。第一代 TPU 在 2015 年部署到資料中心,專門用於推論(inference)。當他們把它跟同期的 CPU 和 GPU 比較時,發現它快了 15 到 30 倍,能源效率則提升了 30 到 80 倍。這篇論文後來成為電腦架構頂級會議 ISCA 五十年歷史上被引用最多的論文。
但推論只是一半的問題。訓練需要更大規模的運算,於是 Google 開始設計「機器學習超級電腦」——把數千顆 TPU 用高速網路連接起來,形成一個龐大的運算叢集。從 2017 年的 TPU v2(256 顆晶片組成一個 Pod)到最新的 Ironwood(9,216 顆晶片組成一個 Pod),每個 Pod 的峰值運算能力提升了 3,600 倍,能源效率也提升了 30 倍。
Transformer:「Attention 就是你所需要的一切」
2017 年,Jeff Dean 的幾位同事發表了一篇論文,標題是《Attention Is All You Need》。這篇論文提出了 Transformer 架構,徹底改變了自然語言處理的面貌。
在 Transformer 之前,處理序列資料的主流方法是 LSTM(長短期記憶網路)。LSTM 的運作方式是一個字一個字地處理,每處理一個字就更新一個內部狀態向量。問題在於,所有的歷史資訊都必須壓縮進這個固定大小的向量裡。當序列很長的時候,早期的資訊往往會被「遺忘」。
Transformer 的核心觀察是:與其強迫模型把所有資訊塞進一個向量,不如讓模型保留所有過去的狀態,然後在需要的時候「注意」(attend to) 相關的部分。這個「注意力機制」讓模型可以直接存取任何位置的資訊,而不用擔心中間的資訊被覆蓋掉。
論文的數據很驚人:Transformer 可以用比 LSTM 少 10 倍的參數、少 10 到 100 倍的運算量,達到相同的語言模型品質。換句話說,同樣的預算可以訓練一個大 10 倍的模型,或者用十分之一的成本達到同樣的效果。
Transformer 很快就被應用到各個領域。2020 年,另一組 Google 研究員把它應用到電腦視覺,證明 Vision Transformer (ViT) 可以用 4 到 20 倍更少的運算量,達到當時最好的圖像辨識準確度。
稀疏模型:不是每個神經元都需要參與
傳統神經網路有一個「浪費」的特性:不管輸入是什麼,整個模型的每一個參數都會參與運算。Jeff Dean 覺得這很不合理。「如果模型裡有專門處理不同事情的部分,為什麼每次都要全部啟動?」
這個觀察催生了稀疏模型(Sparse Models)的研究方向,其中最著名的是「專家混合模型」(Mixture of Experts, MoE)。在 MoE 架構中,模型包含很多「專家」子網路,每次推論時只有一小部分專家會被啟動——通常是 1% 到 5%。一個路由機制會根據輸入決定該啟動哪些專家。
這是一個很划算的交易:模型可以有巨大的參數量(表達能力更強),但每次推論的實際運算量只有傳統模型的幾分之一。Jeff Dean 團隊的實驗顯示,稀疏模型用大約八分之一的訓練成本就能達到相同的準確度。
「現在你聽到的大多數模型,包括 Gemini,都是稀疏模型,」Jeff Dean 指出。這是一個被低估的技術突破——它讓我們可以在不成比例增加成本的情況下,大幅擴展模型的規模。
讓模型「展示解題過程」
2022 年,Jeff Dean 的同事發現了一個簡單但威力驚人的技巧:如果你想讓模型解數學題,不要只給它「問題→答案」的範例,而是給它「問題→解題過程→答案」的範例。
這就是「思維鏈」(Chain-of-Thought) 提示法。當你在提示中示範如何一步步解題,模型就會學著在回答時也展示它的推理過程。這不只是讓答案更容易理解——模型產生每一個 token 時都會進行一輪運算,所以當它「展示解題過程」時,實際上是在用更多的運算來得出答案。
差別很明顯。在 GSM8K(一個小學程度的數學測試集)上,使用思維鏈提示讓準確率從接近隨機猜測跳到約 15%。
「現在回頭看,」Jeff Dean 說,「2022 年我們還在慶祝模型能答對 15% 的八年級數學題——那種『約翰有五個玩具,聖誕節又收到兩個』的題目。」
從小學數學到 IMO 金牌
三年後,一切都不一樣了。
Google 用 Gemini 2.5 Pro 的一個變體參加了今年的國際數學奧林匹克 (IMO)。IMO 是全球最頂尖的中學生數學競賽,兩天六題,每題都是專業數學家等級的難度。
結果:六題答對五題,獲得金牌。
Jeff Dean 在演講中展示了其中一題的解答。題目本身需要對數論有深入理解,而模型產生的證明不只是正確的,評審還稱讚它的優雅。這已經不是「能算數學」的問題了——這是能夠進行嚴謹數學推理的能力。
這種進步來自多個技術的累積。思維鏈讓模型學會拆解問題;蒸餾 (Distillation) 讓小模型能夠學習大模型的「軟標籤」(一個分布,而不只是一個正確答案),大幅提升學習效率;而「在可驗證領域做強化學習」則讓模型可以不斷嘗試、從正確與錯誤的回饋中改進。數學和程式設計特別適合這種方法,因為你可以用定理證明器或編譯器來自動驗證答案是否正確。
三十五年,從「完全錯誤」到「居然有效」
從 1990 年的 32 核電腦到 2025 年的萬顆 TPU 叢集;從「貓論文」到 IMO 金牌;從 DisBelief 的「數學上錯誤」到 Transformer 的「注意力就夠了」。Jeff Dean 的職涯幾乎就是深度學習發展史的縮影。
他在演講結尾提到,AI 會深刻影響醫療、教育、科學研究和媒體創作——當然也有錯誤資訊等風險。「但如果做得好,我們的 AI 輔助未來會是光明的。」
或許最值得玩味的是那個 1990 年的「錯誤」。Jeff Dean 以為需要 32 倍運算力就能讓神經網路變得實用,結果需要的是一百萬倍。但這個「錯誤」的背後是一個正確的直覺:這個抽象概念值得追求。三十五年後,這個直覺被證明是對的——只是規模比任何人想像的都要大得多。