一篇論文,八條路:Transformer 發明者的分岔命運
Transformer 八位共同發明人全數離開 Google,走上截然不同的道路。有人花 27 億美元回歸,有人說自己「厭倦了 Transformer」,有人把注意力機制帶去設計 RNA 藥物。他們對自己的發明態度各異,而這些分歧恰好映射了整個 AI 產業最核心的路線之爭。

本文為「AI 經典文獻回顧」系列第七篇(下),聚焦〈Attention Is All You Need〉八位作者在論文發表後的命運分岔,以及他們對自己發明的不同態度如何映射了整個 AI 產業的路線之爭。上篇見〈為什麼注意力就夠了:一篇改變一切的論文〉。
「他們其實從未同時在同一個房間裡」
2024 年 3 月,NVIDIA GTC 大會。黃仁勳(Jensen Huang)站在講台上,面對兩千多名觀眾,介紹即將上台的座談嘉賓。這場座談是整個 GTC 最熱門的場次——排隊的人龍從會場延伸到走廊盡頭。台上坐著七個人,他們在 2017 年共同完成了一篇改變世界的論文。黃仁勳笑著說了一句讓全場觀眾無法置信的話:「他們其實從來沒有同時在同一個房間裡見過面。」
這不是段子。這八位作者分散在 Google 的不同辦公室、不同團隊、不同城市,論文的協作幾乎完全是遠端進行的。而從 2017 年到 2024 年這七年間,八個人全數離開了 Google——有人創業,有人加入其他大實驗室,有人甚至離開了 AI 領域。等到黃仁勳終於把他們湊到同一個舞台上時,七位到場的作者分別代表著六家不同的公司。第八位——也是唯一的女性作者 Niki Parmar——因家庭緊急狀況缺席。
黃仁勳在座談結束時,送給每位作者一塊 NVIDIA DGX-1 超級電腦的簽名面板,上面寫著:「你們改變了世界。」
但更值得追問的是:這八位改變了世界的人,後來怎麼看待自己的發明?
答案是:他們的分歧,比他們的共識大得多。
延伸派:從 Transformer 的內部找到更多可能
八位作者中有兩位選擇留在 Transformer 的體系裡,把這個架構推向它的能力邊界。
Noam Shazeer 的故事可能是八個人裡最戲劇性的。他是 Google 的元老級員工——2000 年加入,比 Gmail 還早四年——在 Google 工作了將近二十一年。他的貢獻遠不止 Transformer:他寫過 Google 搜尋拼字檢查的核心演算法,寫過成為 Google AdSense 基礎的 PHIL 廣告投放程式,後來又共同發明了混合專家模型(Mixture of Experts)。在 AI 圈子裡,Shazeer 被視為那種隔幾年就能丟出一個改變整個子領域的技術的人。
但在 Transformer 之後,Shazeer 在 Google 內部遇到了一面牆。他和同事 Daniel De Freitas 開發了一個叫 Meena 的聊天機器人,表現很好。但 Google 高層拒絕公開發布,擔心 AI 聊天機器人可能說出有爭議的話,帶來公關風險。Shazeer 等了又等,最後在 2021 年做了一個令人震驚的決定:離開待了二十年的 Google,和 De Freitas 一起創辦了 Character.AI。
Character.AI 讓使用者和各種虛擬角色對話——歷史人物、虛構角色、名人,什麼都有。公司成長速度極快,很快就有了數千萬月活躍使用者。但接下來的劇情轉折,像是矽谷版的《乘風破浪》。2022 年 11 月,OpenAI 發布了 ChatGPT,用 Transformer 架構(正是 Google 自己發明的)引爆了消費級 AI 的浪潮。Google 突然發現自己在自家發明的技術上被 OpenAI 彎道超車。怎麼辦?把 Shazeer 買回來。
2024 年 8 月,Google 以大約 27 億美元的技術授權交易把 Shazeer 帶了回來。這不是傳統的收購——Character.AI 作為公司仍然獨立運營——但 Shazeer 本人回到 Google 擔任工程副總裁,和 Jeff Dean、Oriol Vinyals 共同領導 Gemini 專案。27 億美元,只為了請回一個人。這可能是人類史上為單一技術人才付出的最高價格。
Shazeer 回去之後做了什麼?他找到並修復了 Gemini 訓練流程中一個深層的效率問題,讓訓練效能大幅提升。到 2025 年底,Gemini 應用已經有 6.5 億月活躍使用者。Shazeer 的故事說明了一件事:Transformer 的發明者中最具工程天賦的那個人,選擇留在這個架構裡面,用他對它的深刻理解來持續榨出更多性能。
另一位延伸派是 Łukasz Kaiser。這位波蘭籍的理論計算機科學家,是八位作者中唯一沒有創業的。2021 年他離開 Google Brain 加入 OpenAI,成為那裡的核心研究員。如果說 Shazeer 的貢獻是工程層面的——讓 Transformer 跑得更快更好——Kaiser 的貢獻則是概念層面的。他參與了 ChatGPT 和 GPT-4 的開發,而他最重要的工作,是共同發明了 o1 和 o3 推理模型。
o1 和 o3 系列代表了一個深刻的觀念轉變:讓模型在回答之前先「想」一想。傳統的 Transformer 是「一次通過」的——輸入進去,輸出立刻出來,中間沒有反覆推敲的過程。o1/o3 在 Transformer 的基礎上加了一層隱藏的思維鏈(chain-of-thought),讓模型可以在內部花更多計算資源來處理困難問題。這不是取代 Transformer,而是在它上面疊加了一個全新的能力維度。
Kaiser 的路線和 Shazeer 構成了延伸派的兩個面向:一個在工程上深挖,一個在概念上拓展。他們共同的信念是:Transformer 架構還有巨大的未開發潛力,正確的策略不是推倒重來,而是在現有基礎上往深處走。
取代派:「我厭倦了 Transformer」
在延伸派的對面,站著另外兩位作者,他們公開宣稱 Transformer 需要被超越——甚至被取代。
Llion Jones 是八位作者中最後一個離開 Google 的——一直待到 2023 年 8 月。離開後,他和前 Google 同事 David Ha 在東京共同創辦了 Sakana AI,公司名取自日語的「魚」(さかな),靈感來自魚群協同游動的智慧。2025 年 11 月,Sakana AI 完成了 1.35 億美元的 B 輪融資,估值達 26.5 億美元,成為日本史上估值最高的新創公司。
但讓 Jones 引起全球關注的不是融資數字,而是他在 2025 年 TED AI 舊金山場次上說的一句話:「聽到一個 Transformer 的共同作者站在台上告訴你他已經完全厭倦了 Transformer,這可能聽起來有點爭議,但這其實蠻合理的吧?」
Jones 的論點不只是情緒性的抱怨,而是建立在一個他親身經歷過的歷史教訓上。在 Transformer 之前,整個 NLP 社群花了數年時間在 LSTM 和 GRU 上做微調——改變門的位置、嘗試不同的初始化方法、調整層的堆疊方式。每一篇論文都能把字元級語言模型的表現從 1.26 bits per character 推進到 1.25、1.24。然後 Transformer 出現了,第一次用在語言建模上就直接跳到 1.1。所有那些對 RNN 的精心調校,一夜之間變得毫無意義。
Jones 相信我們現在正處於同樣的處境。無數研究團隊在調整 Transformer 的 normalization 位置、嘗試新的訓練技巧、發明各種注意力的變體。這些工作可能全部都會被下一個架構性突破抹平。問題是,為什麼沒人在認真找這個突破?
他的答案是:Transformer 太成功了。投資人想看短期回報,所以資金流向那些在 Transformer 基礎上做微幅改進的研究。學術界的論文產出壓力也把研究者推向已有明確路徑的方向。「從來沒有這麼多興趣、資源、金錢和人才投入 AI 研究,」Jones 觀察,「但這反而造成了研究方向的縮窄。」
2025 年 5 月,Jones 和 Sakana AI 團隊發表了「持續思考機器」(Continuous Thought Machine, CTM)的論文,提出了一個受生物大腦啟發的全新架構。CTM 的核心概念是讓神經元透過「同步活動」來運作——不像 RNN 那樣按步驟循環,也不像 Transformer 那樣一次通過,而是沿著一條自我生成的內部時間線反覆建構和精煉表徵。這篇論文在 NeurIPS 2025 上被接受。
站在取代派的另一邊是 Ashish Vaswani——論文的第一作者。他的立場比 Jones 溫和,但方向一致。2023 年,他和 Niki Parmar 共同創辦了 Essential AI,這家公司的核心理念不是取代 Transformer,而是找到比純粹堆疊規模更有效率的路。2025 年 8 月,Essential AI 完成了 1.75 億美元的 B 輪融資,估值達到 10 億美元。同年 12 月,公司發布了開源模型 Rnj-1——以印度傳奇數學家拉馬努金(Ramanujan)命名——一個只有 80 億參數的模型,卻在程式碼基準測試 SWE-bench 上達到了接近 GPT-4o 的表現。
彭博社在 2025 年 9 月為 Vaswani 做了一篇長篇人物報導,標題是「這位 AI 先驅試圖把人工智慧從科技巨頭手中拯救出來」。Vaswani 的論點是:如果唯一的進步方式就是堆更多 GPU、用更大的叢集訓練更大的模型,那 AI 的未來就只屬於少數幾家資本雄厚的公司。他追求的是「每個 FLOP 的最大使用者價值」——用更少的資源達到同樣甚至更好的效果。
取代派和延伸派的分歧,不只是技術路線的爭論,更是一個關於 AI 產業結構的問題。如果 Transformer 繼續統治,規模就是一切,贏家是能拿到最多 GPU 的人。如果下一個架構突破出現,牌桌就會重新洗牌。
跨界派:注意力機制遇見 RNA 和區塊鏈
八位作者中有兩位做了最出人意料的選擇:他們帶著 Transformer 的核心思想,走出了 AI 的邊界。
Jakob Uszkoreit 的轉向最為戲劇性。他是提出 Transformer 核心假設——「自注意力不需要循環就能處理語言」——的那個人。2021 年,他離開 Google,但不是去做另一個 AI 公司。他和史丹佛大學生物化學教授 Rhiju Das 共同創辦了 Inceptive,一家 RNA 藥物設計公司。
這個跨界的邏輯,其實比表面上看起來合理得多。RNA 分子是核苷酸的序列,就像自然語言是文字的序列。核苷酸之間的交互作用決定了 RNA 如何折疊成三維結構,而這些結構決定了它的生物功能——這跟 Transformer 擅長捕捉的東西完全吻合:序列中元素之間的長距離交互關係。Uszkoreit 把 RNA 看成一種「生物軟體」:就像電腦軟體從程式碼出發、編譯成可以在 GPU 上運行的東西,生物軟體從行為規格出發,通過深度學習翻譯成 RNA 分子,然後在細胞裡執行。
促使他做出這個選擇的,有一個很個人的因素。他的第一個孩子在新冠疫情期間出生,讓他對生命的脆弱有了新的體會。幾週後,AlphaFold 2 的突破性結果出來了——那個使用了 Transformer 變體的蛋白質結構預測系統。然後 mRNA 新冠疫苗的效果也得到了驗證。這些事件交疊在一起,讓 Uszkoreit 意識到,利用 AI 改進生物學「幾乎是一種道德義務」。
到 2025 年,Inceptive 已經募集了超過 1.2 億美元,投資者包括 Andreessen Horowitz 和 NVIDIA。公司團隊約五十人,分散在柏林、矽谷、蘇黎世、倫敦和溫哥華。最新進展是:AI 設計的 RNA 分子在小鼠實驗中成功展現了預期的行為。這可能是 Transformer 最出人意料的遺產——一個為翻譯語言設計的架構,正在被用來「翻譯」生物學。
有意思的是,Uszkoreit 的父親 Hans——當年對兒子「拿掉循環就能處理語言」的想法表示懷疑的那位計算語言學教授——後來也創辦了一家使用大型語言模型的公司。Transformer 改變的不只是兒子的人生軌跡,連父親也被捲了進去。
另一位跨界者是 Illia Polosukhin。這位烏克蘭出身的工程師做了一個更早、更徹底的離開——他在 Transformer 論文正式發表之前就離開了 Google。2017 年 6 月,他和 Alexander Skidanov 共同創辦了 NEAR Protocol,一條專注於可用性和擴展性的第一層區塊鏈。NEAR 最初其實是一個 AI 專案,後來才轉向區塊鏈。
Polosukhin 的核心主張是:如果 AI 的算力和資料繼續集中在少數科技巨頭手裡,Transformer 帶來的民主化潛力就是空的。他用區塊鏈的去中心化特性來解決 AI 的隱私和資料主權問題。2025 年的 GTC 大會上,他是唯一受邀演講的 Web3 創辦人,展示了 NEAR AI 的「去中心化保密機器學習」(DCML)技術——用密碼學保證確保 AI 訓練資料的隱私。他同時推出了一個 Agent Hub 平台,讓自主 AI 代理可以在區塊鏈上進行交易和自動化工作流程。
在 GTC 2024 的座談中,Polosukhin 在其他作者討論未來架構時,幽默地插了一句:「現在我們只是在等待核融合了。」暗示 AI 領域可能還有比 Transformer 更根本的技術革命等待發生。這句話帶著一個 Web3 創辦人特有的長期主義視角——他押注的不是下一個模型架構,而是整個 AI 基礎設施的治理方式。
商業化派:把 Transformer 變成生意
如果說延伸派在挖深度、取代派在找替代、跨界派在跨領域,那 Aidan Gomez 做的事情最直接:把 Transformer 變成一門好生意。
Gomez 是八位作者中最年輕的——論文發表時他只有二十歲,還是 Google Brain 多倫多辦公室的實習生。2019 年,他在牛津大學攻讀博士期間,和 Ivan Zhang、Nick Frosst(前 Google Brain)共同創辦了 Cohere,專注於為企業提供大型語言模型服務。
Gomez 的策略選擇非常清楚:不跟 OpenAI 和 Google 在消費級聊天機器人上正面競爭,而是走企業路線。Cohere 的產品強調隱私保護、資料不外傳、模型可以部署在客戶自己的基礎設施上。這個定位讓 Cohere 在金融、法律、醫療等對資料安全極度敏感的產業中找到了立足點。
數字說明了一切。2025 年 8 月,Cohere 完成了 5 億美元的融資,估值 68 億美元。一個月後又追加了 1 億美元,估值升至 70 億美元。累計融資超過 16 億美元,年經常性收入突破 1.5 億美元。Gomez 已經聘請了前 Uber 高管擔任首任財務長,準備在 2026 年中推動上市。如果成功,Cohere 可能成為 Transformer 論文作者創辦的公司中第一家上市的。
在 GTC 2024 的座談中,Gomez 是表現最沉穩的一位——黃仁勳打趣說「這是 Aidan 超級興奮時的樣子」,對比旁邊 Shazeer 的激情四溢。但他在座談結尾說了一句最有份量的話:「世界需要比 Transformer 更好的東西。我認為在座的所有人都希望它被一個能帶我們達到新高度的技術所取代。」
這句話從一個正在靠 Transformer 賺錢的 CEO 口中說出來,份量遠大於從一個學術研究者口中說出來。Gomez 不是在做理想主義的呼籲,他是在冷靜地評估:即使他的公司現在建立在 Transformer 之上,他也知道這個架構終究會被超越。問題只是什麼時候。
橋接者:從發明 Transformer 到加入 Anthropic
八位作者中,Niki Parmar 的軌跡最安靜,卻可能最具象徵意義。
她來自印度浦那,靠自學程式走進了 AI 領域,南加大碩士畢業後加入 Google Brain,和 Vaswani 共同完成了 Transformer 論文。之後她和 Vaswani 一起創辦了 Adept AI Labs,又一起創辦了 Essential AI。2024 年底,她做了一個出人意料的選擇:離開和 Vaswani 共同創辦的公司,加入 Anthropic。
2025 年 2 月,她在社群平台上宣布了這個消息,同時分享了她參與開發 Claude 3.7 的成果。
這個選擇之所以有象徵意義,是因為 Anthropic 存在的根本原因——正如我們在上一篇〈Concrete Problems in AI Safety〉中詳細介紹的——就是因為擔心 AI 系統變得太強大而不夠安全。Anthropic 的創辦人 Dario Amodei 和 Chris Olah 當年在 Google Brain 寫安全論文的時候,隔壁的同事正在寫 Transformer 論文。九年後,Transformer 論文的共同作者加入了因為 Transformer 太成功而成立的安全公司。
Parmar 用自己的職涯選擇,物理性地橋接了「能力」和「安全」這兩條線——而這兩條線的交會,正是整個 AI 產業在 2026 年最關鍵的主題。
173,000 次引用,200 億美元,和一個未解的問題
站在 2026 年初往回看,〈Attention Is All You Need〉的影響已經遠遠超出了任何人的預期,包括八位作者自己。
論文被引用超過 173,000 次,但這個數字嚴重低估了它的實際影響。引用計數只覆蓋學術論文,而 Transformer 的影響早已溢出學術界。ChatGPT 在全球有數億使用者,Google 翻譯每天處理數十億次查詢,GitHub Copilot 改變了數百萬開發者的工作方式,AlphaFold 2 為生物學家提供了超過兩億個蛋白質結構的預測——這些全部建立在 Transformer 架構之上。
從商業角度看,八位作者集體參與創辦或領導的公司和交易,總估值超過 200 億美元。Cohere 估值 70 億,Sakana AI 估值 26.5 億,Google 為了 Shazeer 付了 27 億,Essential AI 估值 10 億。加上 Kaiser 所在的 OpenAI 和 Parmar 所在的 Anthropic——兩家的估值加起來超過 2,000 億美元——Transformer 論文的八位作者現在分佈在全球 AI 產業最關鍵的幾個節點上。Wired 雜誌的資深科技記者 Steven Levy 在 2024 年寫了一篇題為「八個 Google 員工發明了現代 AI」的長篇特稿,這個標題沒有任何誇張。
但八位作者自己,在 GTC 2024 的座談中,表達的卻不是勝利者的自滿。他們共同傳達了一個訊息:Transformer 夠好,但不夠好。
Jones 說他「厭倦了」,Gomez 說世界「需要更好的東西」,Uszkoreit 直接離開了 AI 去做生物學,Vaswani 追求「每個 FLOP 的最大價值」而不是更多 FLOP。即使是回到 Google 領導 Gemini 的 Shazeer,也把 Transformer 比喻成「內燃機」——暗示它終究會被更先進的動力系統取代,只是現在是它的時代。
這種集體的自我懷疑,或者更準確地說,這種集體的知識誠實,可能是最值得關注的信號。發明了定義時代架構的人,幾乎全體都在說:不要太迷戀我們的發明。
Transformer 解決了 2017 年 NLP 最緊迫的問題——序列處理的速度瓶頸。但它也帶來了新的問題:固定的計算量分配(不管問題多簡單多複雜,推論時花的計算資源是一樣的)、單次通過的推理限制、以及隨上下文長度二次方增長的計算成本。Kaiser 的 o1/o3 試圖在 Transformer 內部解決計算量分配的問題;Jones 的 CTM 試圖從外部用全新架構解決推理限制的問題。兩條路線都還在早期階段,誰對誰錯,2026 年的我們無法下定論。
但有一件事是確定的。正如我們在這個系列中一再看到的——從 2009 年〈數據的不合理有效性〉預言了大型模型的崛起,到 2012 年 AlexNet 用兩張遊戲顯示卡引爆深度學習革命,到 2016 年〈Concrete Problems〉把 AI 安全變成工程問題——AI 的重大轉折幾乎從不來自對現有範式的漸進改良,而是來自有人願意問一個根本性的問題,然後給出一個讓所有人措手不及的答案。
2017 年那個問題是:「處理語言真的需要按順序來嗎?」八個人用一篇論文回答了:不需要。
下一個這樣的問題會是什麼?Jones 在離開 Transformer 研究時說了一句話,也許是最好的線索:「有沒有可能,我們一直在強迫神經網路做它其實不想做的事?」
這個問題還沒有答案。但如果 Transformer 的歷史教會了我們什麼,那就是:當有人開始問這種根本性的問題時,最好認真聽。