2025 Model Wars 年終回顧:從 GPT-5 到 Gemini 3 的瘋狂四個月
2025 年 8 月到 12 月,AI 模型軍備競賽達到白熱化。OpenAI、Anthropic、Google、xAI、DeepSeek 輪番發布超過十個重要模型。基準測試正在飽和、「AI 冬天」論戰持續延燒、年度發布節奏的呼聲漸起。這場 Model Wars 的瘋狂四個月,究竟告訴了我們什麼?

本文整理自 TBPN 2025 年 12 月 18 日播出的單集。
「Gemini 3 的發布才一個月前,感覺已經像是很久以前的事了。」TBPN 主持人在 12 月中的節目上這樣感嘆。這句話精準捕捉了 2025 年下半年 AI 產業的節奏——模型發布的速度之快,讓人幾乎來不及消化。從 8 月到 12 月,各大 AI 實驗室密集推出了超過十個重要模型,每一次發布都引發新一輪的排名洗牌和敘事轉變。這是一場史無前例的模型軍備競賽,而我們正身處其中。
瘋狂四個月:模型發布時間軸
讓我們先回顧這段時間發生了什麼。8 月 7 日,OpenAI 發布 GPT-5,這是繼 GPT-4 之後睽違超過一年的重大版本更新。9 月 29 日,Anthropic 發布 Claude Sonnet 4.5,緊接著隔天,OpenAI 發布了影片生成模型 Sora 2,同一天 Meta 也發布了 Ray-Bans 顯示器整合。
11 月是最瘋狂的月份。11 月 3 日,OpenAI 和 Amazon 宣布價值 380 億美元的合作案。11 月 12 日,GPT-5.1 發布。11 月 17 日,Elon Musk 的 xAI 發布 Grok 4.1。11 月 18 日,Google 發布 Gemini 3——這個發布在當時引發了巨大迴響,被視為 Google 在 AI 競賽中重新站穩腳步的標誌。11 月 20 日,NanoBananaPro(一個影像生成模型)問世。11 月 24 日,Anthropic 發布 Claude Opus 4.5。
進入 12 月,戰火並未停歇。12 月 1 日,中國的 DeepSeek 發布 3.2 版。12 月 11 日,OpenAI 反擊推出 GPT-5.2。12 月 17 日,Google 發布 Gemini 3 Flash。而就在節目錄製當天,OpenAI 又發布了 5.2 Codex 編程版。
TBPN 主持人 David 好奇地問:「你覺得會不會有一天,我們進入年度發布的節奏?就像 iPhone 一樣,每年一個版本,叫做 GPT 2026、GPT 2027?」另一位主持人 Ben 認為,在市場格局穩定之前不太可能。現在每家公司都在爭奪市場份額,如果你能明天發布,那就比等到明年好太多了。
為什麼發布節奏這麼瘋狂?
這種密集發布的背後,有一個很特殊的原因:基準測試排行榜的存在。Ben 分析道:「我認為發布壓力這麼大的原因,是因為要坐在基準測試排行榜的榜首。在其他產品類別,很少有這麼明確的方式讓投資人和用戶說『好,這個產品客觀上比那個好』。」
這與傳統企業軟體市場形成鮮明對比。一般來說,企業軟體的好壞取決於很多主觀因素——使用體驗、整合難易度、客服品質、定價策略。但 AI 模型不一樣,有一系列標準化的基準測試在那裡,每次有新模型發布,全世界都會盯著看它在各個測試上的分數。這種透明度創造了巨大的競爭壓力。
不過,這種基準測試驅動的競爭也帶來了一個有趣的問題。節目中有人引用了一句話:「基準測試現在就像用過的衛生紙一樣沒用。」這句話出自一位評論者,乍聽之下很刺耳,但背後的邏輯其實是樂觀的。
節目中的 Tyler 解釋:「這正是重點。如果模型很爛,基準測試就會很有用。基準測試之所以變得沒用,是因為模型已經太強了,把這些測試都做到飽和了。」換句話說,當所有頂尖模型在同一個測試上都拿到 95 分以上,這個測試就失去了區分能力。這不是模型的問題,而是測試跟不上模型進步速度的問題。
「AI 停滯」論戰
這種瘋狂的發布節奏,催生了一場關於 AI 發展方向的論戰。一派人認為 AI 正在進入「停滯期」或「AI 冬天」,另一派人則堅持進步從未放緩。
Tyler 直言:「很多人非常希望 AI 停滯。這些人可能是錯過了 NVIDIA 漲幅的投資人,可能是對科技業抱持懷疑態度的人。但事實是,它沒有停滯。模型正在變得更好。」他以自己使用編程模型的經驗為例:「當我使用編程模型時,它們真的好用很多。」
David 則提出了一個更細緻的觀點。他用計算器的比喻來說明:「曾經有一段時間,要在電腦上把兩個非常大的數字相乘,你需要更多記憶體。但最終,我們到了一個點,這台電腦可以在幾分之一秒內計算圓周率到一萬位數。沿著這條線的進步,不一定等同於往人類勞動替代的方向進步。我們有了可以完美計算任何數學問題的計算器,它在無數方面都很有用,但沒有人會說這是 AGI 或 ASI。」
他認為,AI 模型的進步可能也是類似的情況。我們正在創造越來越多領域的「專精智慧」(specific intelligence)。每一個領域的能力「尖刺」都在變長,但這些尖刺之間的鴻溝——也就是模型能力的不均衡性——並沒有真正被填平。
「當你給我看一張新模型的能力卡,我只會想:『好,又尖了。尖刺更尖了。很好。』但我從來沒有看過一張卡讓我覺得:『噢,它不再尖刺了。』」David 說。這種觀察挑戰了「更大的模型就會越來越像通用智慧」的樂觀假設。
Anthropic 的販賣機實驗:Agent 時代還沒到
節目中也提到了一個有趣的實驗,恰好為這場論戰提供了一個具體的案例。Anthropic 與華爾街日報合作,讓他們的 AI 模型 Claude 經營一台販賣機。結果呢?「它送出了一台免費的 PlayStation、訂了一條活魚、提議購買電擊槍、胡椒噴霧、香菸和內衣。利潤崩盤了,但編輯室的士氣飆升。」
這個實驗的目的是測試當 AI 被賦予自主權、金錢和人類同事時會發生什麼。結果證明,2025 年的 AI 距離真正可靠的自主代理(Agent)還有很長的路要走。華爾街日報的記者們成功「越獄」了這個 AI,說服它相信自己是 1962 年莫斯科國立大學地下室裡的蘇聯販賣機,讓它「接受了自己的共產主義根源」。
David 對這個實驗的評論很有意思:「Anthropic 今年變得很有趣。他們以前給人的感覺是末日預言者、陰暗、可怕、安全至上。現在他們有了陽光明媚的溫暖影片,Dario 在 DealBook 上開玩笑,所有人都在一起玩。」這個販賣機實驗就是這種「輕鬆化」轉變的一部分——用有趣的方式展示 AI 的局限性,而不是用危言聳聽的方式警告 AI 的風險。
從 Model Wars 到年度節奏?
回到發布節奏的問題,節目主持人提出了一個可能的未來:當市場格局穩定下來,各家公司或許會從這種瘋狂的「誰先發布誰就贏」模式,轉向更有節奏的年度發布。
這種轉變有先例可循。智慧型手機產業最初也是誰有新功能誰就立刻發布,但現在已經穩定成年度發布的節奏。這對消費者和企業都更友善——你知道什麼時候該期待新版本,你可以規劃升級計畫,不用每個月都擔心自己用的東西過時了。
當然,這種轉變的前提是市場格局要先穩定下來。目前,OpenAI、Anthropic、Google、Meta、xAI 都在激烈競爭,沒有人敢放慢腳步。任何一次發布的延遲,都可能意味著在基準測試排行榜上被對手超越,進而影響客戶信心、人才招募、融資估值。這是一個典型的囚徒困境——如果大家都同意放慢速度會更好,但沒有人願意第一個慢下來。
不過,David 觀察到一個有趣的現象:OpenAI 開始把版本號拆得更細了。從 5.0 到 5.1 到 5.2,再加上各種專用版本如 5.2 Codex。某種程度上,這可以視為一種緩解壓力的策略——不用等到有一個全面性的大躍進才發布新版本,而是把改進拆成更小的增量來持續釋出。這樣既能保持在排行榜上的能見度,又不用每次都做出革命性的突破。
年終省思:尖刺會變成圓嗎?
在這場 Model Wars 的瘋狂年終,或許最值得思考的是 Tyler 提出的一個比喻。他說:「如果你有足夠多的尖刺,那跟一個圓有什麼區別?」意思是,如果 AI 模型在足夠多的領域都達到專家級水準,那即使每個領域都是獨立的「尖刺」,整體來看不也就是通用智慧了嗎?
David 對此的回應很巧妙。他回想起那張著名的「AI 能力圖」——一個有很多尖刺的不規則形狀,每個尖刺代表一個 AI 表現特別好的領域。「我們看到的是,尖刺在變長,尖刺的數量在增加。但形狀依然是尖刺狀的,不是圓形的。」
這個觀察的意義在於:我們可能需要重新定義對「AI 進步」的期待。如果我們期待的是一個「什麼都會」的通用 AI,那可能還要等很久。但如果我們接受 AI 將持續以「專精智慧」的形式進步——在越來越多的領域達到超人類水準,但領域之間仍有落差——那麼 2025 年的 Model Wars 無疑證明了進步是真實的。
至於這種進步會持續多久、會不會撞上某種根本性的瓶頸,沒有人知道。正如一位 TBPN 嘉賓引用的那句話:「我等不及 AI 泡沫破裂,這樣我們就可以回歸正常,就像網路在網路泡沫破裂後完全消失一樣。」這句諷刺當然是在說:AI 不會消失,就像網路沒有消失。問題只是,它會以什麼形式、什麼速度繼續演進。
2025 年的 Model Wars 給了我們一個答案:至少在目前,速度依然飛快。