Groq 攜手 NVIDIA:Chamath 親解「Pre-fill 與 Decode」的架構之爭
為什麼 NVIDIA 願意與潛在競爭對手 Groq 合作?All-In Podcast 主持人、Groq 早期投資人 Chamath Palihapitiya 揭露了 AI 推論背後的關鍵技術瓶頸:Pre-fill(預填充)與 Decode(解碼)的本質差異。
這可能是近期 AI 硬體圈最令人震驚的消息之一:NVIDIA 宣佈與 AI 晶片新創 Groq 達成戰略合作。
這個消息之所以反直覺,是因為 Groq 長期以來都被視為 NVIDIA 的挑戰者。Groq 創辦人 Jonathan Ross 曾是 Google TPU 的發明者,這家公司主打的 LPU(Language Processing Unit)架構,正是為了打破 GPU 在大型語言模型(LLM)推論上的壟斷而生。然而,這場原本被視為「大衛對抗歌利亞」的戰爭,卻在 2025 年底演變成了一場價值 200 億美元的聯手。
為什麼 NVIDIA 執行長黃仁勳(Jensen Huang)會願意「擁抱」競爭對手?All-In Podcast 主持人、同時也是 Groq 早期投資人的 Chamath Palihapitiya,在最新一集節目中揭露了這場合作背後的技術邏輯。這不僅是一次商業上的合縱連橫,更揭示了 LLM 運算架構正在經歷一場根本性的典範轉移——從單一架構通吃,走向「Pre-fill(預填充)」與「Decode(解碼)」的分工時代。
LLM 的兩張面孔:閱讀與寫作
要理解這次合作的意義,首先得理解大型語言模型是如何思考的。Chamath 在節目中引用了一組關鍵概念:Pre-fill(預填充)與 Decode(解碼)。這兩個術語聽起來生硬,但它們精準地描述了 AI 處理任務的兩個截然不同的階段。
所謂「Pre-fill」,就是模型的「閱讀階段」。當你把一長串 Prompt(提示詞)丟給 ChatGPT 時,模型必須一次性讀取所有的文字,計算字與字之間的關聯。這個過程是高度平行化的,需要巨大的算力來同時處理龐大的矩陣運算。這正是 NVIDIA GPU 的主場——GPU 的設計初衷就是為了處理這種大規模並行任務,它能像推土機一樣,暴力且高效地碾過這些數據。隨著 Context Window(上下文視窗)越來越大,Pre-fill 的運算需求也呈指數級上升,這讓 NVIDIA 的優勢更加不可撼動。
然而,當模型讀完題目,開始「寫作」時,情況就變了。這就是「Decode」階段。在這個階段,模型必須一個字、一個字(token by token)地生成答案。每生成一個字,它都必須回頭看之前生成的所有內容,以確保上下文連貫。
這時,運算的瓶頸不再是「算力」,而是「記憶體頻寬」。因為每生成一個字,資料就必須在晶片的運算單元(Logic)和記憶體(HBM)之間來回搬運一次。這就像是你每寫一個字,都得從書桌跑到圖書館查一次字典,然後再跑回來寫下一個字。無論你的寫字速度(算力)有多快,你的產出速度最終會被「跑圖書館」(記憶體傳輸)的時間給卡住。這就是為什麼我們有時會覺得 AI 回答時會「卡頓」或「像打字機一樣慢」的物理原因。
蓋大樓的比喻:為什麼 GPU 在 Decode 階段效率低?
Chamath 用了一個生動的建築比喻來解釋這個瓶頸。想像你在一棟摩天大樓裡,如果你要從 A 點移動到 B 點(完成一次運算),在 GPU 的架構下,你必須先搭電梯上到 10 樓,處理完後再搭電梯回到一樓,然後走到隔壁棟,再搭電梯上去。這個「搭電梯」的過程,就是資料在 HBM(高頻寬記憶體)與運算單元之間傳輸的過程。
對於 Pre-fill 這種「一次處理全部」的任務,這還能接受,因為你是一次把幾千人塞進電梯運上去。但對於 Decode 這種「一次只產出一個字」的任務,這就像是為了運送一個人而專門開一趟電梯,效率極低且浪費能源。
Groq 的架構設計,正是為了這個痛點而生。他們採取了一種極端且反直覺的策略:完全捨棄外部記憶體(HBM),直接把所有需要的記憶體(SRAM)做進晶片裡面。
在 Groq 的架構下,資料不需要「搭電梯」。所有的數據都已經平鋪在晶片上,就像是在同一層樓裡,你只需要從走廊的一頭走到另一頭。這種設計讓 Groq 的晶片在 Decode 階段的速度比 GPU 快上數倍,甚至數十倍,因為它徹底消除了記憶體頻寬的瓶頸。這就是為什麼 Groq 能夠實現每秒生成數百個 Token 的驚人速度,讓 AI 對話感覺就像人類即時交談一樣流暢。
200 億美元的互補:NVIDIA 負責讀,Groq 負責寫
這次合作的核心邏輯在於:NVIDIA 終於承認,單靠 GPU 架構難以同時完美解決 Pre-fill 和 Decode 的問題。
雖然 NVIDIA 的 GPU 是地表最強的通用運算怪獸,但它的架構是為了「高吞吐量(Throughput)」而非「低延遲(Latency)」設計的。為了在 Decode 階段達到極致速度,你需要的是像 Groq 這樣專門設計的架構。Chamath 透露,這場合作的契機源於 Groq 的工程團隊發現他們可以讓 Groq 的晶片與 NVIDIA 的 GPU「對話」。
這創造出了一種完美的互補關係:由 NVIDIA 的 GPU 負責 Pre-fill(閱讀與理解),利用其強大的並行算力快速消化長文本;一旦進入生成階段,任務就無縫移交給 Groq 的 LPU 負責 Decode(寫作與生成),利用其極致的記憶體速度來秒殺輸出。
這不僅僅是技術上的互補,更是商業上的雙贏。對 NVIDIA 而言,這解決了 HBM 產能短缺帶來的推論瓶頸,讓客戶能用更少的 HBM 達到更高的效能;對 Groq 而言,這意味著他們不再需要試圖取代 NVIDIA,而是成為 NVIDIA 生態系中不可或缺的加速器。Chamath 形容這就像是為電腦安裝了專門的顯卡一樣,未來的 AI 伺服器將會標配這種「閱讀+寫作」的雙晶片架構。
技術創新的本質:在限制中尋找突破
Groq 的成功也給了硬體創業者一個重要的啟示:你不一定非要追逐最先進的製程。
Chamath 指出,Groq 的晶片並沒有使用台積電最昂貴的 3nm 或 2nm 製程,而是採用了相對成熟且便宜的製程技術。因為他們的優勢不在於把電晶體做小,而在於架構的創新——通過堆疊大量的 SRAM 來換取速度。這種「用空間換時間」的設計哲學,讓 Groq 能夠在成本可控的前提下,提供超越摩爾定律的效能提升。
Groq 的創辦人 Jonathan Ross 曾是 Google TPU 的發明者,他在設計 TPU 時就意識到了傳統架構的侷限。這次與 NVIDIA 的合作,證明了他十年前對「確定性運算(Deterministic Computing)」的堅持是正確的。與 GPU 這種需要複雜調度軟體的「動態」架構不同,Groq 的晶片在編譯階段就已經確定了每一個數據包的流向,這讓它在執行時不需要浪費時間在硬體調度上,從而實現了極致的效率。
結語:AI 推論成本的雪崩式下降
這場 200 億美元的交易,標誌著 AI 硬體競賽進入了下一個階段。我們正在從「軍備競賽」走向「架構分化」。未來的 AI 模型將不再跑在單一通用的處理器上,而是會像人類的大腦一樣,不同的區域負責不同的功能——有的負責深思熟慮(Pre-fill),有的負責快速反應(Decode)。
對於終端使用者與開發者來說,這意味著什麼?這意味著 AI 推論的成本將會迎來一次雪崩式的下降,而速度將會有倍數級的提升。當「每秒生成 500 字」成為標配,當 AI 的回應速度快到讓你感覺不到延遲,我們距離真正的「即時語音助理」和「萬物 AI」的時代,就真的不遠了。
📎 本文整理自《All-In Podcast》2025 年 12 月 31 日播出的單集。
- YouTube:https://www.youtube.com/watch?v=bhpd4NeTbCI
- Spotify:https://open.spotify.com/episode/1Xx0jM5fZi51sbeC30ppuH
- Apple Podcast:https://podcasts.apple.com/tw/podcast/massive-somali-fraud-in-minnesota-with-nick-shirley/id1502871393?i=1000743363784