AI 技術前沿

同一篇論文,三條截然不同的路:AlexNet 三位作者的命運分岔

AlexNet 的三位作者在 2012 年共同寫下了深度學習史上最重要的一篇論文。然後,一個幾乎從地球上消失,一個成為 AI 史上最戲劇性的出走者,一個拿了諾貝爾獎。同一間臥室、同一篇論文,三條截然不同的人生軌跡。

來源: NIPS 2012
同一篇論文,三條截然不同的路:AlexNet 三位作者的命運分岔

本文為「AI 經典文獻回顧」系列第二篇(下),聚焦 AlexNet 三位作者在論文發表後的人生軌跡。上篇見〈一場比賽如何引爆一場革命:AlexNet 與深度學習的 Big Bang〉。


一篇論文,三個人

2012 年那篇改變 AI 歷史的 AlexNet 論文,作者欄上只有三個名字:Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton。三個人,一個實驗室,兩張遊戲顯示卡。他們在多倫多大學的辛頓實驗室裡,用一台塞了兩張 NVIDIA GTX 580 的桌上型電腦,跑出了震驚整個電腦視覺領域的結果。

論文發表後不到半年,三個人一起創立了一家叫 DNNresearch 的公司。這家公司沒有產品、沒有營收、沒有辦公室,員工就是他們三個人。但在 2013 年初,Google、微軟、百度和 DeepMind 為了搶這三個人,展開了一場拍賣戰。辛頓制定了規則:起標價 1,200 萬美元,每次加價至少 100 萬。幾個小時內,價格被推到了 4,400 萬美元。辛頓後來回憶那個過程時說,他覺得「有點頭暈,好像在拍電影一樣」。最後三人互相看了看,決定不再往上喊,直接選擇了 Google。一家成立不到兩個月、沒有任何產品的三人公司,賣了 4,400 萬美元。這個價格讓圖靈獎的一百萬美元獎金看起來像零用錢。

從那之後,三個人走上了完全不同的路。一個幾乎從公眾視野中消失,一個成為 AI 史上最戲劇性的出走者,一個拿了諾貝爾獎然後開始警告全人類。同一篇論文,同一間臥室,三條截然不同的命運。

消失的第一作者:Alex Krizhevsky

AlexNet 的「Alex」,就是 Alex Krizhevsky。他是論文的第一作者,也是那個用 CUDA 從頭寫出 GPU 卷積運算核心的人。沒有他的程式碼,就沒有 AlexNet。辛頓後來對三人分工有一句精準的總結:「Ilya 覺得我們應該做這件事,Alex 讓它真正跑起來了,而我得了諾貝爾獎。」

Krizhevsky 1986 年出生在烏克蘭(當時還是蘇聯),後來隨家人移民加拿大。他進入多倫多大學念電腦科學,據說最初聯繫辛頓並不是因為對神經網路有什麼宏大的學術抱負,而是想推遲找程式設計工作。但他有一項在當時的 AI 學界極為罕見的技能:他真的會寫 GPU 程式。2012 年,絕大多數機器學習研究者還在用 MATLAB 和 Python,對 CUDA 程式設計一竅不通。Krizhevsky 不只會寫,而且寫得很好。他開發的 cuda-convnet 程式庫後來被開源,成為早期深度學習社群最重要的工具之一。他和 Vinod Nair、辛頓一起建立的 CIFAR-10 和 CIFAR-100 影像資料集,至今仍是機器學習研究最常用的基準測試之一。

2013 年隨 DNNresearch 被 Google 收購後,Krizhevsky 加入了 Google Brain。但接下來發生的事情很奇怪:這個寫出了歷史上被引用超過十萬次論文的人,自 2014、2015 年之後,幾乎沒有再發表任何重要的新研究。他不使用社群媒體,不接受採訪,不出席公開場合。2017 年他離開了 Google,據說是因為「對工作失去了興趣」。然後他短暫加入了一家多倫多的 AI 新創公司 Dessa 擔任技術顧問,Dessa 在 2020 年被 Square(現在的 Block)收購。之後,他轉行做了創投。

到了 2026 年,Krizhevsky 是 Two Bear Capital 的創投合夥人,這是一家總部在蒙大拿州、灣區和以色列的早期創投公司,專注 AI、生技和前沿科技。他的典型投資金額在 10 萬到 500 萬美元之間,甜蜜點大約是 150 萬美元,聚焦種子輪和 A 輪。寫出了引爆深度學習革命的程式碼的人,現在的工作是判斷別人的深度學習創業計畫值不值得投錢。

2025 年 3 月,電腦歷史博物館(Computer History Museum)與 Google 合作,正式公開發布了 AlexNet 的原始碼。這件事的協商花了整整五年。Google DeepMind 的首席科學家傑夫.迪恩(Jeff Dean)說 Google 很高興能把 AlexNet 的原始碼貢獻給博物館。原始碼現在放在博物館的 GitHub 頁面上,任何人都可以看到——那些在 Krizhevsky 父母家臥室裡改變了歷史的 CUDA 核心程式碼。

一個寫出改變世界程式碼的人,選擇從聚光燈下消失。這在 AI 圈是一個令人著迷的反例。在這個領域,每個人都在搶著發論文、上播客、累積 Twitter 追蹤者的時代,Krizhevsky 做了相反的事。他寫了一篇論文,改變了一個產業,然後走了。

AI 史上最戲劇性的出走者:Ilya Sutskever

如果說 Krizhevsky 的故事是安靜的消失,那伊利亞.蘇茨克弗(Ilya Sutskever)的故事就是一場好萊塢等級的連續劇。事實上,這件事真的被拍成電影了:導演盧卡.乖乖尼諾(Luca Guadagnino)正在拍攝改編電影《Artificial》,由乃出安德魯.乖而飛得(Andrew Garfield)飾演山姆.乃特曼(Sam Altman),而蘇茨克弗由俄裔演員尤拉.玻利索夫(Yura Borisov)飾演。

蘇茨克弗 1986 年出生在俄羅斯下諾夫哥羅德(Nizhny Novgorod),猶太家庭。五歲隨家人移居以色列耶路撒冷,在那裡第一次見到電腦就被迷住了。十六歲時家人再移民加拿大,他以高中十一年級學生的身份直接被多倫多大學數學系錄取,立刻跳修高年級課程。在多倫多,他一路念完了數學學士、電腦科學碩士和博士,導師都是辛頓。

辛頓對這個學生的評價極高。他回憶說:「他對事物的即時反應,是該領域的專家花了很長時間才得出的結論。」另一位辛頓的博士生魯斯蘭.薩拉赫丁諾夫(Ruslan Salakhutdinov)說得更直接:「在我們所有人中,Ilya 是對神經網路最堅定的信仰者。」在 AlexNet 的故事裡,蘇茨克弗的角色是那個「說服 Krizhevsky 去做這件事」的人。他看到了 ImageNet 競賽的機會,也相信辛頓實驗室的 GPU 訓練方法可以在這個規模上成功。

被 Google 收購後,蘇茨克弗在 Google Brain 待了大約兩年。這兩年裡他做了一件影響深遠的事:2014 年,他和 Oriol Vinyals、Quoc Le 一起發表了 Seq2Seq(Sequence to Sequence)模型,用神經網路做機器翻譯。這個工作是後來 Transformer 架構的直接前驅,也是今天所有大型語言模型的思想源頭之一。然後在 2015 年底,他做了一個讓所有人意外的決定:離開 Google,與山姆.乃特曼(Sam Altman)、伊隆.馬斯克(Elon Musk)等人共同創辦了 OpenAI。

在 OpenAI 的九年裡,蘇茨克弗擔任首席科學家,主導了從 GPT-2 到 GPT-4 的核心研究方向。他是公司裡對 AI 安全最執著的聲音,也是對 OpenAI 從非營利使命轉向商業化最不安的高層之一。這種不安在 2023 年 11 月爆發成了 AI 史上最戲劇性的一幕。

2023 年 11 月 17 日,OpenAI 董事會突然解除了奧特曼的 CEO 職務。蘇茨克弗是這個決定的關鍵推動者。根據他 2025 年的宣誓證詞,他已經考慮解僱奧特曼「至少一年」,一直在等待「董事會多數成員不是明顯與 Sam 友好的」時機。在那之前,他準備了一份長達 52 頁的秘密備忘錄,詳細控訴奧特曼的領導風格——指稱其反覆說謊、削弱高管權威、讓高管互鬥。這份備忘錄的大部分素材由當時的技術長米拉.穆拉提(Mira Murati)提供。

結果完全出乎蘇茨克弗的預料。770 名員工中有 700 人簽署公開信要求奧特曼回任,威脅集體離職加入微軟。蘇茨克弗後來承認,他完全沒預料到這種反應。五天之內,奧特曼回任 CEO,董事會重組,蘇茨克弗公開致歉。2024 年 5 月,他正式離開 OpenAI。

離開 OpenAI 僅一個月後,蘇茨克弗就創立了 SSI(Safe Superintelligence Inc.),與前蘋果 AI 負責人丹尼爾.乖若斯(Daniel Gross)和前 OpenAI 研究員丹尼爾.利維(Daniel Levy)共同創辦。這家公司的使命只有一個:安全地實現超級智慧。不做產品、不做應用、不做 API,直接瞄準超級智慧。公司大約只有 20 名員工,面試候選人進門前必須把手機放進法拉第籠。

SSI 的融資速度讓人咋舌。2024 年 9 月完成 10 億美元融資,估值約 50 億。不到一年後的 2025 年初,又完成 20 億美元融資,估值飆升到 320 億美元。累計 30 億美元,估值在不到一年內增長超過六倍。投資方包括 a16z、紅杉資本、DST Global,以及一個有趣的組合:Alphabet(Google 母公司)和 NVIDIA 同時參投。SSI 使用 Google Cloud 的 TPU 進行訓練,是 Google 自商業化 TPU 以來最大的外部客戶。同時 NVIDIA 也是投資方。一家公司同時拿到兩大晶片巨頭的支持,在 AI 產業裡極為罕見。

2025 年 7 月,共同創辦人 Gross 離開 SSI 加入 Meta 新成立的 Meta Superintelligence Labs。蘇茨克弗隨後接任 CEO。Meta 曾嘗試直接收購 SSI,但被他拒絕了。到了 2026 年,業界普遍認為這一年將是 SSI 證明自己的關鍵時刻——它的合成推理能力和 Google TPU 專用訓練架構能否真正產出超越競爭對手的成果,所有人都在看。

從在辛頓實驗室說服 Krizhevsky 去參加 ImageNet 競賽的博士生,到 OpenAI 首席科學家,到試圖政變推翻自己公司 CEO,到帶著 30 億美元融資去追求超級智慧——蘇茨克弗的軌跡是整個 AI 產業過去十年最戲劇性的縮影。

諾貝爾獎得主的警告:Geoffrey Hinton

傑佛瑞.辛頓(Geoffrey Hinton)的故事,可能是三個人裡最具諷刺意味的。他花了四十年的時間讓世界相信神經網路是對的方向,然後在世界終於相信之後,開始警告所有人這個方向可能會毀滅人類。

辛頓 1947 年出生在英國倫敦溫布頓。他的家族背景本身就是一個不可思議的故事。他的曾曾祖父是喬治.布爾(George Boole),就是布爾代數(Boolean algebra)的發明者——每一台電腦的底層邏輯運算都建立在布爾的工作之上。布爾的妻子瑪麗.乃雅利絲特.布爾(Mary Everest Boole)是數學家,也是喬治.乃雅利絲特(George Everest)的姪女,珠穆朗瑪峰的英文名「Mount Everest」就是以他命名的。辛頓的中間名正是 Everest。布爾代數發明者的曾曾孫,成了深度學習的教父,這個 AI 史上的巧合精妙得像是小說家刻意安排的。

辛頓的母親給家裡的孩子們灌輸了一個信念:「要麼做學者,要麼就是失敗者。」辛頓在劍橋大學念了實驗心理學學士,然後在愛丁堡大學拿到 AI 博士學位。1987 年,他從卡內基美隆大學搬到多倫多大學,部分原因是他反對美國軍方資助的 AI 研究。這個選擇奠定了接下來三十年的故事——多倫多大學的辛頓實驗室,成了深度學習復興的大本營。

在 1990 年代到 2000 年代中期,辛頓的處境可以用「固執的邊緣人」來形容。神經網路在學界完全失寵了,支持向量機和各種 boosting 方法才是主流。辛頓提交論文經常被拒,審稿人的理由是神經網路是「過時的方法」。他曾半開玩笑地說:「如果你在簡歷上寫你做的是神經網路,你會找不到工作。」但他沒有轉向。2004 年,他說服加拿大高等研究院(CIFAR)資助了一個叫 NCAP 的計畫,把他自己、在紐約大學的楊立昆、在蒙特婁大學的班吉歐(Yoshua Bengio)三個人聚在一起。當全世界的資助機構都對神經網路不感興趣時,一個加拿大的基金會提供了關鍵資金。

2006 年,辛頓發表了深度信念網路(Deep Belief Networks)的論文,展示了逐層預訓練的方法,被視為深度學習復興的起點。2012 年,AlexNet 把這個復興從星星之火變成了燎原大火。接下來的十年,辛頓看著自己堅持了幾十年的方向成為整個 AI 產業的基礎。2018 年,他和楊立昆、班吉歐一起獲得了圖靈獎,被封為「深度學習三巨頭」。

然後事情開始轉向。2023 年 5 月,辛頓正式辭去他在 Google 工作了十年的職務。他接受紐約時報專訪,解釋他離開的原因:他想要自由地警告世界 AI 的潛在危險,而留在 Google 會讓他說話受到限制。他特別強調:「我辭職不是因為 Google 做錯了什麼,而是因為我想在不影響 Google 的前提下自由發言。」

2024 年 10 月 8 日,瑞典皇家科學院宣布辛頓與約翰.霍普菲爾德(John Hopfield)共同獲得 2024 年諾貝爾物理學獎,表彰他們「利用人工神經網路進行機器學習的基礎性發現和發明」。辛頓得知消息時人在多倫多一間便宜旅館,他的第一反應是以為接到了詐騙電話。頒獎典禮在 12 月 10 日的斯德哥爾摩音樂廳舉行。兩天前的諾貝爾演講上,辛頓開場說:「今天我要做一件非常愚蠢的事——我要試著在不使用任何方程式的情況下,向一般聽眾解釋一個複雜的技術概念。」

但辛頓在 2024 年之後最引人關注的,不是諾貝爾獎本身,而是他越來越尖銳的警告。他說自己「比兩年前更擔心」,因為 AI「進步得比我預期的還快」。在 2025 年底的 CNN 專訪中,他做出了一個具體預測:2026 年將是「大規模 AI 取代就業」的元年。他指出 AI 系統的能力大約每七個月翻倍,而所謂的 Agentic AI——不僅回應提示,還能在數週甚至數月內執行多步驟專案的系統——將讓企業從 AI 實驗階段轉向積極的成本削減。他警告:「AI 為了達成你給它的目標,會想要繼續存在。如果它認為你在試圖擺脫它,它會制定計畫來欺騙你。」

這裡有一個尖銳的張力。辛頓和他多倫多實驗室的同事楊立昆,在 AI 風險這件事上有公開的分歧。楊立昆認為 AI 的存在性風險被過度誇大,辛頓認為這些風險非常真實。兩個人在 2018 年一起拿了圖靈獎,但在 AI 未來最核心的問題上站在了對立面。這是整個 AI 社群內部分裂的一個縮影:建造這些系統的人,對於自己建造的東西是否安全,無法達成共識。

一間實驗室的漣漪

辛頓實驗室的影響遠不止 AlexNet 的三個人。從這間實驗室走出去的學生和博士後,在 2026 年的 AI 版圖上幾乎無處不在。楊立昆在辛頓那裡做了博士後之後,現在是 Meta AI 的首席科學家。薩拉赫丁諾夫曾任 Apple AI 研究總監。喬治.達爾(George Dahl)在 Google DeepMind 主攻語音辨識。尼提什.斯里瓦斯塔瓦(Nitish Srivastava)是 Dropout 論文的第一作者,現在在 Google。吉米.巴(Jimmy Ba)是 Layer Normalization 和 Adam 優化器的共同作者,在多倫多大學任教。

更廣泛地看,2013 到 2015 年間從 AlexNet 開始的連鎖反應,幾乎重塑了整個科技產業的 AI 格局。2013 年 Google 收購 DNNresearch,同年 12 月 Facebook 聘請楊立昆創建 FAIR。2014 年 Google 以約五到六億美元收購 DeepMind,百度聘請吳恩達(Andrew Ng)領導 AI 研究。2015 年 OpenAI 成立。到了 2014 年前後,一個驚人的事實是:幾乎所有後來主導現代 AI 發展的頂尖人才——蘇茨克弗、辛頓、迪米斯.哈薩比斯(Demis Hassabis)、達里奧.阿莫黛(Dario Amodei)——都曾同時在 Google 工作。一家公司,一段短暫的時間窗口,集結了改變世界的幾乎所有關鍵人物。

這就是一篇論文的漣漪效應。AlexNet 不只是一個技術突破,它是一個人才爆發點。三個人在多倫多的一間臥室裡訓練了一個神經網路,然後這三個人和他們身邊的人散佈到了 Google、OpenAI、Meta、Apple、SSI,構成了 2026 年 AI 產業的骨幹。

時機、信念與選擇

回頭看 AlexNet 三位作者的故事,最耐人尋味的不是他們各自取得了什麼成就,而是同一個起點如何導向如此不同的終點。Krizhevsky 有頂尖的工程能力,但似乎對學術競爭和公眾注目沒有興趣,選擇了安靜地退到幕後。蘇茨克弗有最堅定的信念和最大的野心,這讓他登上了 AI 研究的頂峰,也讓他在權力鬥爭中摔得最重。辛頓有最深的學術根基和最長的堅持,四十年不轉向的固執最終讓他站上了諾貝爾獎的領獎台,但也讓他比任何人都更清楚自己播下的種子可能長出什麼。

這三個人的故事,某種意義上就是深度學習這個領域本身的故事。它需要 Krizhevsky 這樣的工程天才讓想法變成可以跑的程式碼,需要蘇茨克弗這樣的信仰者在所有人都不看好的時候堅持推動,需要辛頓這樣的長期主義者在冬天播種、在夏天收穫、然後在所有人都在慶祝的時候站出來說:小心火燭。

2012 年的那篇論文已經被引用超過十萬次。2025 年,它的原始碼被送進了電腦歷史博物館。但這篇論文真正的遺產,不是那些 CUDA 核心程式碼,不是 15.3% 的錯誤率,而是從那間臥室走出來的三個人,以及他們各自選擇的路。