AI 產業動態

四大 AI 實驗室爭霸戰:一場史無前例的戰略博弈

全球只有四家 AI 實驗室真正重要:OpenAI、Google、Anthropic、XAI。Meta、Microsoft、Amazon 投入數十億美元仍無法躋身第一梯隊,揭示了前沿 AI 研究的高門檻。本文分析四大實驗室的競爭策略:Google 的低成本生產者定位、XAI 的速度優勢、OpenAI 的成本劣勢、Anthropic 的靈活佈局,以及 Reasoning 模型如何創造飛輪效應改變競爭格局。

來源: Invest Like the Best EP.451 - Gavin Baker

地球上只有四家 AI 實驗室真正重要:OpenAI、Google(Gemini)、Anthropic、和 XAI。這不是誇張的說法,而是基於技術能力、資本規模、和競爭態勢的冷靜評估。更值得關注的是,Meta、Microsoft、Amazon 這些擁有龐大資源的科技巨頭,投入數十億美元後依然未能躋身第一梯隊。這個現象本身就是理解當前 AI 競爭格局的重要線索。

Gavin Baker 是 Atreides 投資公司創辦人,曾任 Fidelity 科技基金經理人,長期追蹤 AI 與半導體產業。在 2024 年 12 月與《Invest Like the Best》主持人 Patrick O’Shaughnessy 的對談中,他以投資人的視角,深入剖析了四大實驗室的競爭動態。這場分析揭示了一個比表面更複雜的戰略棋局,其中每個玩家都清楚知道自己的位置、對手的戰術、以及最終的獎品是什麼。


一個令人警醒的事實:前沿模型比想像中更難做

在分析四大實驗室之前,首先要理解一個產業現實:打造前沿 AI 模型比任何人預期的都要困難。這不是謙虛的說法,而是有具體案例支撐的事實。

2025 年初,Mark Zuckerberg 公開表示他「高度確信」Meta 在年內某個時候會擁有「最好、最強大的 AI」。這是一個大膽的預測,來自一家擁有頂尖人才、龐大資本、和海量數據的公司。結果呢?Meta 的模型可能連前一百名都排不進去。這個預測錯得不能再錯。

Meta 不是唯一失敗的例子。Microsoft 收購了 Inflection AI,這家公司的創辦人包括 DeepMind 的共同創辦人,擁有頂級的 AI 人才。Microsoft 當時暗示,他們預期內部模型的能力會快速提升,將越來越多的 AI 服務建立在自己的模型上。這個預期沒有實現。Amazon 收購了 Adept AI,推出了自己的 Nova 模型系列,但這些模型的表現連前二十名都進不了。三家擁有近乎無限資源的科技巨頭,三次失敗的嘗試。

這些失敗揭示了什麼?首先,讓大規模 GPU 叢集保持「連貫」運作是一項極其困難的工程挑戰。「連貫」的意思是,叢集中的每一張 GPU 都知道其他 GPU 在做什麼,它們共享記憶體、透過高速網路協同運算。當你有兩萬張、十萬張、甚至二十萬張 GPU 時,保持它們的連貫需要頂尖的系統工程能力。物理定律限制了連貫叢集的上限大約在二十萬到三十萬張的量級,但達到這個上限之前,工程挑戰已經足夠艱鉅。

更微妙的是,不同公司運作 GPU 的效率差異極大。如果你的叢集只有 30% 的正常運作時間,而競爭對手達到 90%,你們根本不是在同一個量級競爭。這種效率差異不容易從外部觀察到,但它直接決定了誰能更快地完成訓練、迭代更多的實驗、累積更多的改進。許多公司過去習慣於為成本最佳化運作基礎設施,而非為效能最佳化。這種組織慣性在 AI 訓練中成為致命的劣勢。


「品味」的價值:為什麼頂尖人才如此稀缺

前沿 AI 研究有一個有趣的特點:頂尖研究員喜歡談論「品味」(taste)。這個詞聽起來模糊,但它指向一個非常具體的能力——對於該執行哪些實驗有良好的直覺。

為什麼這種直覺如此重要?因為在大型模型的研究中,實驗的機會成本極高。你無法在一千張 GPU 的小叢集上執行實驗,然後簡單地把結果複製到十萬張 GPU 的大叢集上。模型的行為在不同規模下會有本質的差異,這就是為什麼規模定律如此重要但又如此難以預測。要驗證一個想法是否有效,你必須在足夠大的規模上執行實驗。一個實驗可能需要在五萬張 GPU 上跑數天甚至數週。選錯了實驗方向,就是數百萬美元的沉沒成本和數週的時間損失。

這種情況下,研究團隊的直覺判斷變得至關重要。哪些架構改進值得嘗試?哪些訓練技巧可能帶來突破?哪些看起來有前景的方向其實是死胡同?這些判斷需要深厚的技術理解、豐富的實驗經驗、以及某種難以言喻的直覺。擁有這種「品味」的研究員極為稀少,這解釋了為什麼 AI 人才的薪酬可以達到天文數字,也解釋了為什麼金錢和硬體不能自動轉化為研究突破。

Meta 的案例特別說明問題。他們不缺錢,不缺硬體,甚至不缺人才——Yann LeCun 是深度學習的先驅之一,Meta 還推出了著名的「十億美元 AI 研究員薪酬計畫」來吸引頂尖人才。但即便如此,他們仍然無法做出前沿模型。這證明了人才的稀缺性不只是數量問題,更是某種難以複製的組織能力和研究文化的問題。


Reasoning 如何改變競爭動態

2024 年下半年,Reasoning 模型的出現徹底改變了前沿實驗室的競爭動態。這個改變的意義,需要放在更長的時間框架中理解。

在 Reasoning 出現之前,基礎模型的競爭有一個殘酷的特點:快速折舊。一個經常被引用的說法是「基礎模型是歷史上折舊最快的資產」。你今天訓練的模型,幾個月後就會被更大、更好的模型超越。這意味著訓練模型的投資回報窗口極短,而且不存在持久的競爭壁壘。你唯一的選擇是不斷投入更多資源,訓練更大的模型,維持領先。這是一場消耗戰,對資本的需求永無止境。

更準確的說法應該是:「沒有獨特數據和網路規模分發的基礎模型,是歷史上折舊最快的資產。」這個修正指向了一個重要的例外:如果你擁有競爭對手無法獲得的數據,或者你的產品觸達了網路規模的用戶,你就有了持久的優勢。這解釋了為什麼 Google、Meta 這些擁有海量用戶數據的公司被認為有結構性優勢。

但 Reasoning 帶來了更根本的改變。它創造了一個飛輪效應,這種效應過去只存在於最成功的網路公司中。想想 Netflix、Amazon、Google 這些公司是如何運作的:做出好產品,獲得用戶,用戶使用產品產生數據,數據被回饋到產品中讓它變得更好,更好的產品吸引更多用戶。這個飛輪已經在這些公司轉動了超過十年,創造了難以撼動的競爭優勢。

在 Reasoning 出現之前,這個飛輪在 AI 領域不存在。你預訓練一個模型,發布它,它就是它的樣子了。用戶的使用很難有效地回饋到模型改進中。RLHF(人類反饋強化學習)可以做一些微調,但效果有限,過程繁瑣。

Reasoning 改變了這一切。當大量用戶問類似的問題,他們對答案的反應(喜歡或不喜歡、採納或拒絕)成為可驗證的信號。這些信號可以被用作強化學習的獎勵,直接回饋到模型訓練中。飛輪開始轉動。擁有更多用戶的實驗室,可以收集更多的反饋信號,更快地改進模型,吸引更多用戶。先發優勢開始真正有意義。

更重要的是,每一家領先的實驗室內部都有一個「檢查點」(checkpoint),比公開發布的版本更先進。他們持續在改進模型,公開發布的只是某個時間點的快照。更關鍵的是,他們正在用更先進的內部模型來訓練下一代模型。如果你沒有那個最新的檢查點,追趕會變得越來越困難。差距不是線性累積,而是指數累積。


Google:低成本生產者的戰略計算

在四大實驗室中,Google 的競爭策略最為獨特:它選擇成為「Token 的低成本生產者」。這個策略在科技產業中幾乎是前所未見的。

想想看:Apple 不是因為是手機的低成本生產者才價值數兆美元。Microsoft 不是因為是軟體的低成本生產者才稱霸企業市場。Nvidia 不是因為是 AI 加速器的低成本生產者才有如此高的毛利率。在科技產業的歷史中,低成本從來不是決定性的競爭優勢。品牌、生態系統、網路效應、技術領先——這些才是真正重要的。

但 AI 不同。AI 是第一個低成本生產真正重要的科技領域。為什麼?因為 AI 的邊際成本結構與傳統軟體完全不同。傳統軟體你寫一次,然後可以幾乎零成本地複製分發給數十億用戶。AI 不是這樣——每一次推論都需要實際的運算,都有實際的成本。當你的產品的每一次使用都有邊際成本時,成本效率就變得至關重要。

Google 利用這個獨特的競爭維度,執行了一個極其理性但也極其激進的策略:作為低成本生產者,刻意壓低價格,「吸走 AI 生態系統的經濟氧氣」。如果你有決定性的成本優勢,而且你有搜尋業務和雲端服務這些現金牛來補貼,為什麼不以負毛利率運營 AI 服務?讓競爭對手的日子難過。讓那些需要外部融資的公司難以籌集足夠的資本。等到他們體力不支,你就可以收割市場。

這個策略有一個明確的有效期限。Google 的成本優勢來自它的 TPU(Tensor Processing Unit)——自研的 AI 加速器。在 Blackwell 部署困難的這段時期,TPU v6 和 v7 成為相對先進的選擇。但當 Blackwell 和後續的 GB300、Rubin 大規模部署後,使用 Nvidia 最新硬體的競爭對手將奪回成本優勢。到那時,Google 的戰略計算將需要調整。以負毛利率運營的策略,在你不再是成本領先者時,會變成自殘。


XAI:速度作為核心競爭力

XAI 的核心優勢可以用一個字總結:快。Nvidia 執行長黃仁勳公開說過,沒有人建資料中心比 Elon Musk 更快。這不是客套話,而是基於實際觀察的評價。

速度為什麼重要?在 AI 競爭中,速度帶來了連鎖的優勢。第一個在新硬體上完成大規模部署的公司,可以最先開始訓練下一代模型。訓練完成得越早,就有越多時間進行後訓練優化、累積用戶反饋、迭代改進。在一個每幾個月就有新模型發布的產業中,幾週的領先可以轉化為顯著的市場優勢。

XAI 的速度優勢還帶來了一個額外的好處:它成為 Nvidia 新硬體的首要測試場。新一代 GPU 從出廠到真正達到高效運作,需要大量的工程調校。軟體堆疊需要優化,各種邊角案例需要處理,最佳實踐需要累積。誰最先大規模部署,誰就最先遇到這些問題,也最先解決這些問題。XAI 因為建設速度最快,實際上為 Nvidia 扮演了「先鋒測試者」的角色,幫助 Nvidia 為其他客戶鋪平道路。

這種關係是互利的。XAI 獲得了最早使用新硬體的優先權和 Nvidia 的密切技術支持;Nvidia 獲得了一個願意快速部署、積極回報問題的大客戶。當第一個 Blackwell 模型問世時,很可能來自 XAI,正是因為這種特殊的合作關係。

XAI 在市場上的表現已經可以看出端倪。OpenRouter 是一個 API 聚合平台,雖然只佔整體 API 市場的一小部分,但可以作為相對市場份額的指標。根據最近的數據,XAI 處理了約 1.35 兆個 Token,Google 約 8,000-9,000 億,Anthropic 約 7,000 億。XAI 已經在 API 市場取得了領先地位,而且它的成立時間遠比其他三家短。


OpenAI:先發者的結構性劣勢

OpenAI 是這場競賽的先發者,ChatGPT 的發布引爆了整個產業。但先發優勢在 AI 領域並不像在其他科技領域那樣決定性,而且 OpenAI 面臨一個結構性的劣勢:它是高成本的 Token 生產者。

這個劣勢的根源在於 OpenAI 的運算來源。與 Google(自有 TPU)、XAI(快速自建資料中心)不同,OpenAI 依賴外部合作夥伴提供運算資源,主要是 Microsoft 的 Azure 雲服務。這意味著 OpenAI 需要支付利潤給運算提供者。更糟的是,這些運算提供者可能不是最擅長運作 GPU 的——他們的核心業務是通用雲服務,而非專門為 AI 訓練優化的基礎設施。

高成本結構的影響是深遠的。當 Google 以負毛利率「吸走經濟氧氣」時,OpenAI 承受的壓力比任何其他競爭者都大。它需要不斷籌集資金來維持運營,而融資的需求又受制於它能展示的商業前景。這解釋了為什麼 OpenAI 宣布了 1.4 兆美元的 Stargate 計畫——自建大規模資料中心,擺脫對外部運算的依賴。這也解釋了為什麼公司很快就進入了「Code Red」狀態,需要緊急調整策略。

OpenAI 的優勢在於品牌認知和用戶基礎。ChatGPT 是 AI 助理的代名詞,擁有數億用戶。這個用戶基礎是 Reasoning 飛輪的燃料——更多用戶意味著更多反饋信號,更快的模型改進。但這個優勢需要與成本劣勢賽跑。如果 OpenAI 在實現成本平價之前耗盡資金,或者被迫接受不利的融資條款,它的長期競爭力將受到影響。


Anthropic:被低估的效率玩家

在四大實驗室中,Anthropic 可能是最被低估的一家。它燒的錢遠少於 OpenAI,但成長速度更快。這種資本效率的差異值得深究。

Anthropic 的優勢來自它靈活的硬體策略。它同時與 Google(使用 TPU)和 Amazon(使用 Trainium)保持合作關係,這讓它能夠從 Google 的低成本 Token 生產中受益,同時又不完全依賴單一供應商。這種多元化的硬體來源,提供了議價能力和供應安全。

更值得注意的是 Anthropic 最近的戰略調整。它剛與 Nvidia 簽署了一份 50 億美元的協議,這是一個信號性的舉動。Anthropic 的 CEO Dario Amodei 顯然理解了 Blackwell 和 Rubin 相對於 TPU 的動態——當 Nvidia 的新硬體大規模部署後,成本優勢將重新洗牌。提前鎖定 Nvidia 的供應,是為即將到來的競爭格局變化做準備。

這個舉動對 Nvidia 也有戰略意義。在 Nvidia 與 Google(TPU)的競爭中,XAI 和 OpenAI 原本是 Nvidia 陣營的兩個主要「戰士」。Anthropic 的加入,讓 Nvidia 陣營從兩家變成三家。如果 Meta 能夠追上來(Nvidia 肯定在全力幫助他們),那就是四家。在這場硬體生態系統的競爭中,Nvidia 的陣營正在擴大。


Meta 與中國開源:一個意外的變數

Meta 無法做出前沿模型,但它找到了一條替代路徑:中國開源。這聽起來有點諷刺——一家美國科技巨頭依賴中國的開源模型來維持競爭力——但商業邏輯是清晰的。

中國的 AI 實驗室,特別是 DeepSeek,一直在發布高質量的開源模型。這些模型可以作為「檢查點」,讓落後者有一個追趕的起點。如果你沒有自己的前沿模型,你可以用中國開源作為基礎,在上面進行改進和微調。這比從零開始要容易得多。

但這條路徑正面臨地緣政治的干擾。中國政府正在推動國產 AI 晶片的使用,強調要減少對美國技術的依賴。這意味著中國的 AI 實驗室被鼓勵使用華為等國產晶片,而非 Nvidia 的 GPU。問題是,國產晶片的性能與 Blackwell 有顯著差距。DeepSeek 在最近的技術論文中委婉地承認,他們難以與美國前沿實驗室競爭的原因之一是「運算資源不足」——這是在說,他們沒有足夠的先進 GPU。

如果這個趨勢持續,中國開源的進展將放緩,而美國前沿實驗室與中國之間的差距將擴大。這對 Meta 來說是壞消息——它依賴中國開源來追趕,如果中國開源本身放緩,追趕就更加困難。

但這裡有一個轉折的可能。中國的稀土政策可能會在未來幾年失去槓桿。大量的研發正在投入稀土替代技術和新的供應來源,而且許多對美國友好的國家擁有豐富的稀土礦藏。如果稀土不再是制約因素,中國可能會重新考慮其晶片自主策略,Blackwell 可能會重返中國市場。到那時,中國開源將恢復活力,Meta 也將有新的追趕機會。


這場博弈的本質

縱觀這場四大實驗室的競爭,幾個主題浮現出來。首先,這是一場真正的戰略博弈,每個玩家都清楚地知道自己的位置、對手的戰術、以及最終的獎品。這種清晰度本身就很罕見——通常在商業競爭中,各方的資訊是不對稱的,戰略是模糊的。但在 AI 領域,關鍵的技術參數(算力、模型規模、基準測試分數)是相對透明的,這讓競爭變成了一場近乎公開的棋局。

其次,資本和硬體是必要條件,但不是充分條件。Meta、Microsoft、Amazon 的失敗證明了這一點。你可以有無限的錢,但如果你沒有正確的團隊、正確的文化、正確的技術判斷,你仍然會失敗。AI 研究需要一種特殊的組織能力,這種能力不是靠收購或挖角就能獲得的。

第三,Reasoning 創造的飛輪效應正在改變競爭的性質。過去,AI 競爭是一場消耗戰,誰能持續投入更多資源誰就領先。現在,競爭開始有了「複利」的特徵——領先者的優勢會自我強化,追趕者的處境會越來越艱難。這意味著當前的領先格局可能會固化,新進入者的機會窗口正在關閉。

最後,這場競爭遠未結束。Blackwell 和 Rubin 的大規模部署將重新洗牌成本結構。太空資料中心的可能性將在中期改變基礎設施經濟學。地緣政治的變化將影響中國的參與程度。每一個變數都可能改變競爭的走向。唯一可以確定的是,這是人類歷史上最高風險、最快節奏、最引人入勝的技術競賽之一。


本文為 AINEXT 系列報導「Gavin Baker 談 AI 產業」第三篇(完結篇)。