AI 技術前沿 2026 年 2 月 4 日

GPU 算力觸頂還是尚未開發？兩位頂尖研究者的正反辯論，以及他們如何用 Agent 改變自己的工作

QLoRA 發明人 Tim Dettmers 主張 GPU 硬體已觸及物理極限，FlashAttention 共同開發者 Dan Fu 反駁還有 90 倍算力未被動用。兩人從 AGI 辯論出發，最後在 coding agent 的實戰應用上達成驚人共識。

來源： The MAD Podcast with Matt Turck

GPU 算力觸頂還是尚未開發？兩位頂尖研究者的正反辯論，以及他們如何用 Agent 改變自己的工作

本文整理自《The MAD Podcast with Matt Turck》2026 年 1 月播出的單集。

一場由部落格引爆的公開論戰

幾週前，一篇標題為〈Why AGI Will Not Happen〉的部落格文章在 AI 圈引起軒然大波。作者是卡內基美隆大學（Carnegie Mellon University）助理教授、同時也是艾倫人工智慧研究所（AI2）研究員的提姆．德特默斯（Tim Dettmers）。這個名字對 AI 從業者來說並不陌生，他是 QLoRA 的發明人，那項讓大型語言模型的微調記憶體需求降低 16 倍的技術，幾乎成了開源社群的標準配備。他也是量化壓縮領域的先驅，bitsandbytes 這個被無數開發者使用的函式庫就出自他手。

幾天後，另一篇回應文章〈Yes, AGI Will Happen〉上線了。作者是加州大學聖地牙哥分校（UC San Diego）助理教授、Together AI GPU Kernel 工程副總裁丹尼爾．傅（Dan Fu）。Dan Fu 的履歷同樣驚人，他在史丹佛大學的博士研究催生了 FlashAttention，這項技術加速了幾乎所有主流大型語言模型的注意力運算。他也是狀態空間模型（State Space Model）的重要推手，研究如何用 Transformer 以外的架構來處理序列資料。在 Together AI，他帶領團隊專門替 Cursor 這類 AI 編碼工具加速底層推論效能。

兩位都是站在 GPU 硬體和系統最佳化第一線的研究者，不是坐在辦公室裡推演理論的人。當他們對 AGI 是否可能這件事產生根本分歧，值得仔細聽聽各自的理由。

物理極限已到？Dettmers 的悲觀論證

Dettmers 的核心主張建立在一個結構性觀察上：所有指數成長最終都會撞牆，因為資源會被耗盡。

他把這個論證拆成兩個層次。第一層是計算的物理本質。他認為有用的運算本質上做的是兩件事：把資料從一個地方搬到另一個地方（記憶體搬移），然後在本地把這些資料組合起來產生新的資訊（計算轉換）。你需要把遠處的資訊拉到近處才能算，這是一個幾何問題，而我們已經把這個幾何問題解到接近最佳了。想像一個廚房：冰箱很大但離爐台遠（DRAM 記憶體），料理台空間小但就在手邊（快取），你做菜的速度取決於你跑冰箱拿食材的次數。這種「大容量慢記憶、小容量快記憶」的階層式架構，就是所謂的馮紐曼瓶頸（von Neumann bottleneck）。不管你怎麼重新設計廚房動線，冰箱和爐台之間的距離問題只會移位，不會消失。

即使像 Cerebras 那種把記憶體和運算放在同一塊晶片上的設計，也只是把瓶頸從晶片內部搬到了晶片和外部儲存之間的通道。同樣的物理問題，只是換了一個發生的位置。

第二層是工程創新的枯竭。他逐一清點了過去十年的重大效能提升：TensorCore 讓矩陣乘法加速了一個數量級；8-bit 精度省了一半記憶體，4-bit 量化又省了一半。量化壓縮的概念像把高畫質照片壓縮成低畫質：畫面變小了，但壓到某個程度細節就會開始模糊。根據 Dettmers 自己的研究和其他團隊的結果，4-bit 已經接近這個「壓到再壓就爛掉」的實務極限了。訓練數學相關任務時，4-bit 精度甚至不夠，需要回到 8-bit。HBM（高頻寬記憶體）是把 DRAM 像千層蛋糕一樣堆疊起來加速存取，但層數越多良率越低，2026 年的 HBM 產能已經無法同時滿足所有晶片廠商的需求。稀疏性（sparsity）是另一個被研究了 50 年的方向，但至今沒有決定性突破。

在 Dettmers 看來，硬體已經 maxed out，沒有新技術在地平線上，而我們能加的額外功能也加完了。

90 倍算力就在那裡：Dan Fu 的反駁

Dan Fu 並不否認物理極限的存在，但他認為 Dettmers 忽略了一個關鍵事實：我們離充分使用現有硬體還差得非常遠。

他的論證從一個具體數字開始。目前最好的開源模型之一 DeepSeek，是在 2024 年底用大約 2,000 張被美國出口管制削弱的 H800 GPU 訓練的，有效晶片利用率（MFU，Model Flop Utilization）只有大約 20%。MFU 可以想成引擎的馬力利用率：你買了一台 500 匹馬力的車，但實際上只用到 100 匹。而早期在舊硬體上跑的 training run 很容易就達到 50% 到 60% 的 MFU。光是把利用率從 20% 拉回 60%，就有 3 倍的空間。

接著是硬體世代的躍進。DeepSeek 的基礎模型大約在 2024 年中開始訓練，但從那之後，Poolside、Reflection 等公司已經建好了數萬張 NVIDIA Blackwell GPU 的新叢集。單看規格，Blackwell 在相同精度下比上一代快 2 到 3 倍，新叢集的規模又大了 10 倍。再加上純軟體最佳化帶來的 3 倍，Dan Fu 算出了一個驚人的數字：3 乘以 3 再乘以 10，大約有 90 倍的算力尚未被當前模型利用。

他特別強調了「模型是落後指標」這個觀點。我們今天用的模型，是一兩年前的叢集訓練出來的。建叢集要時間，跑預訓練要時間，做後訓練要時間，做產品化要時間。所以我們拿來評估「AI 發展到哪了」的模型，其實反映的是一兩年前的硬體現實。真正的最新硬體才剛開始被用來訓練下一代模型，結果還沒出來。

甚至連 OpenAI 的 GPT-5.2，從技術報告中的描述來看，預訓練階段可能還是在舊的 H100/H200 叢集上跑的，Blackwell 可能只用於後訓練的微調。換句話說，我們還沒看到真正在新世代硬體上從頭預訓練的模型。

共識：別管 AGI 定義了，有用最重要

辯論進行到一半，一個有趣的共識浮現了。

主持人 Matt Turck 問：「你們兩個的觀點是不是在『有用性』這件事上交會了？」Dettmers 的回答很直接：他的部落格結論其實就是這個，我們不應該太在意 AGI 這個標籤，而應該思考如何讓 AI 最大限度地發揮效用。Dan Fu 則從另一個角度切入。他認為後訓練（post-training）就像健身房裡的專項訓練：預訓練是基礎體能，後訓練才是讓你在特定任務上表現出色的關鍵。即使預訓練的算力沒有大幅增加，光靠更好的後訓練，模型在各個垂直領域就可能變得非常實用。

Dettmers 補充了一個很有意思的觀察：美國的心態是「做出最好的模型，大家自然會用」，但真正要讓 AI 產生經濟影響，需要的是擴散（diffusion），需要讓各行各業都能用上。這更接近中國的做法，務實地把 AI 塞進每一個能用的角落。

這個共識的實質意義是：即使 Dettmers 對硬體瓶頸的判斷是對的，我們手上已有的模型能力，配合更好的後訓練和更聰明的部署方式，仍然有巨大的價值等待釋放。AGI 到不到不重要，重要的是 AI 夠不夠有用。

軟體奇點時刻：Dan Fu 的親身經歷

討論轉向 coding agent 時，Dan Fu 分享了一段讓他震撼的親身經歷。2025 年 6 月的某一週，他發現 Claude Code 和 Cursor Agent 這類 agentic 編碼助手，居然已經非常擅長寫 GPU kernel 程式了。

這需要一點背景知識。GPU kernel 是告訴 GPU 晶片「具體該怎麼算」的底層程式，相當於廚師的刀工：食譜（模型架構）再好，刀工不行菜就做不出來。它們要用 C++ 寫，高度平行化，一般程式設計師幾乎不可能上手。在機器學習社群裡，這被視為程式設計的「最終 Boss」。Together AI 在招聘能寫 kernel 的人時，難度極高，因為這是程式設計能力金字塔最頂端的技能。

但 Dan Fu 發現，在那一週裡，他用 AI 輔助寫了三到四個功能，每個功能過去都需要他獨自花一週。所有功能在一天之內完成。作為 kernel 專家，他的生產力提升了大約五倍。他立刻讓整個團隊開始用，結果整個團隊現在能在幾天內完成過去需要幾個月的複雜系統開發。

Dan Fu 用了一個很關鍵的限定詞：這不代表 AI 可以獨立完成所有事。如果你讓 coding agent 自己跑，結果可能不對。但如果你是一個專家程式設計師，用這些工具可以快 10 倍。他稱這是「軟體奇點」，至少在軟體工程領域，那個「開關翻轉」的時刻已經發生了。

不用 Agent 就會被淘汰：Dettmers 的實務宣言

Dettmers 則從另一個角度闡述了 coding agent 的革命性。他最近寫了一篇題為〈Use Agents or Be Left Behind〉的文章，核心論點是：coding agent 不只是寫程式的工具，它們是通用型 agent，因為程式碼本身就是通用的。任何數位問題都可以用程式碼解決，而 coding agent 讓寫程式碼這件事變得空前容易。

作為教授，Dettmers 平常寫的程式碼並不多，但他發現用 coding agent 處理各種非程式碼任務時，有些任務能快 10 倍完成，而且品質不降反升。Agent 不會累，不會在處理複雜資訊時犯低級錯誤。他甚至做了一個量化判斷：90% 以上的程式碼和文字應該由 agent 產生，人類做的是那 10% 的審閱和編輯。那 10% 會帶來巨大的差異，因為透過審閱和修改，你把 AI 的產出變成了你自己的東西。

他舉了自己寫研究補助申請書的例子。用 agent 輔助撰寫的申請書讀起來仍然有他個人的熱情和研究視野，因為他會審閱、調整、加入自己的判斷。AI 生成的內容經過人類的策展和編輯後，並不比純手工寫的東西更沒有個人風格。

他也提供了一個很實用的個人案例：他錄製了自己和 agent 互動的影片，但影片中有很多他只是看畫面不說話的段落。於是他用 agent 寫了一個小程式，自動辨識語音、切割出只有他在說話的片段。整個工具 20 分鐘就做好了，他完全沒看過程式碼，只檢查了輸出影片是否正確。

管理 Agent 就像帶新進員工

Dan Fu 提出了一個特別精闢的觀察：管理 AI agent 跟管理團隊裡的新人非常像。

你不會對一個剛來的實習生說「去幫我們今年營收翻倍」。你會給他一個小任務，讓他先熟悉程式碼庫，告訴他可能會遇到什麼問題。同樣的道理適用於 agent：你需要給它上下文，告訴它可能踩到的坑，給它足夠但不過多的工具權限。

他也指出了一個微妙的平衡：有些人因為擔心 agent 搞壞生產環境，就把它限制得死死的，監看它的每一個動作。但如果你對一個真人這樣做，那個人也不可能有生產力。你需要給 agent 適當的信任和空間，就像你給新人適當的權限一樣。

更有趣的是 Dan Fu 觀察到的一個副作用。在 Together AI，剛畢業的年輕工程師因為頻繁跟 agent 溝通，被迫學會精確表達自己想要什麼，這其實加速了他們的溝通能力成長。過去一個初階工程師可能要花好幾年，才能學會用管理者的精確度來描述需求。現在 agent 逼著你說清楚，這個學習過程被大幅壓縮了。

而且，專業知識越深的人，從 agent 獲得的加成越大。因為你知道什麼是重要的、方向要往哪走、哪些是常見的坑、哪些步驟需要拆解。這就是為什麼 Dan Fu 作為 kernel 專家能獲得 5 倍加速，而一個完全不懂 kernel 的人可能只會得到一堆看起來對但實際上有問題的程式碼。

教育困境：domain expertise 和 agent 技能的兩難

Dettmers 從教育者的角度拋出了一個尖銳的問題。他在大學教書時發現，如果讓學生自由使用 agent，他們確實生產力很高，但有時候會建構出看起來正確但實際上很糟或根本錯誤的解決方案，而且他們自己察覺不到。

這裡面有一個根本性的矛盾。你需要 domain expertise 才能有效使用 agent，但 domain expertise 需要時間累積，而學生有了 agent 之後就不想花時間累積基礎知識了。如果你禁止學生用 agent 來培養基礎能力，他們出去工作時不會用 agent，在職場上沒有競爭力。如果你讓他們用 agent，他們的基礎知識會有嚴重缺口。

Dettmers 還把這個問題推得更遠。他認為在未來，我們很可能需要處理自己不完全理解的問題，agent 理解但我們不理解。這時候你需要的不只是批判性思考，而是一種「知道未知的未知」（know the unknown unknowns）的能力，一種對自己認知盲區的敏感度。這超越了傳統意義上的批判性思維，幾乎是一種全新的認知技能。

我的觀察

這場對話最讓我印象深刻的，不是兩人在 AGI 上的分歧，而是他們在實務層面的高度一致。

Dettmers 說硬體觸頂，Dan Fu 說還有 90 倍。但兩個人都同意，最重要的不是模型能不能通過什麼基準測試，而是能不能讓真實世界的工作者變得更有效率。這個共識比辯論本身更有價值，因為它指向了一個臺灣產業界更應該關注的方向：別再等「AGI 什麼時候來」了，現在手上的工具就已經能帶來巨大改變。

Dan Fu 那個「軟體奇點」的故事特別有說服力。GPU kernel 是程式設計世界裡最難的領域之一，連這種東西 agent 都能幫上大忙了，那一般的網頁開發、資料處理、報告撰寫呢？重點不是 agent 能不能獨立完成任務（現在還不太行），而是它能讓專家快 5 到 10 倍。

Dettmers 提出的教育困境也值得臺灣的學界和企業界認真思考。我們正在進入一個「用了 agent 基礎能力退化，不用 agent 生產力落後」的兩難局面。Dettmers 說需要一種「知道未知的未知」的新能力，這聽起來很抽象，但其實很實際：你需要在不完全理解系統的情況下，仍然有能力判斷輸出是否合理。這不是一個可以靠教科書教出來的能力，但可能是 AI 時代最重要的職場生存技能。

最後一點。這兩位都是 30 多歲的年輕學者，同時在學術界和產業界有重要角色。Dettmers 的 QLoRA 讓全世界的開發者都能在消費級 GPU 上微調大型模型，Dan Fu 的 FlashAttention 加速了幾乎每一個你用過的語言模型。他們不是在做預測，他們是在描述自己每天經歷的現實。這讓他們的觀點比任何分析師的報告都更值得重視。