AI 技術前沿 2024 年 12 月 15 日

AGI 還要等十年！為什麼 OpenAI 創辦人 Karpathy 說現在的 AI 都是些花拳繡腿？

OpenAI 共同創辦人 Andrej Karpathy 在訪談中直言現在的 AI 模型都是「slop」，並解釋為何 AGI 還要十年。他用自駕車經驗提出「每個 9 都是等量工作」的框架，分析 AI Agent 的真正挑戰。

當整個矽谷都在高喊「AGI 明年就來」，這位在 AI 領域耕耘 15 年的老兵，卻冷靜地說：還要等十年。他不是悲觀，而是看過太多次預測落空。

一位 AI 老兵的逆風發言

2024 年底，Andrej Karpathy 在一場深度訪談中說出了許多業界人士不敢說的話。

「現在的模型都是 slop。」他直言。「整個業界假裝這些東西很厲害，但其實不是。」

Slop，這個詞在英文網路圈專指「AI 生成的粗製濫造內容」——說穿了就是「看起來很厲害但其實不行」的東西。從 OpenAI 共同創辦人、Tesla AI 前總監口中說出這句話，份量不輕。

Karpathy 的履歷幾乎就是現代 AI 發展史的縮影：史丹佛博士、開設第一門深度學習課程 CS231n、加入 OpenAI 成為共同創辦人、被 Elon Musk 挖角到 Tesla 帶領自駕車 AI 團隊五年、回歸 OpenAI 又再度離開。現在，他創辦了一間教育公司 Eureka Labs，目標是打造「星際艦隊學院」。

這樣一個人，為什麼要在 AI 最火熱的時候潑冷水？

「這是 Agent 的十年，不是 Agent 的一年」

過去一年，「AI Agent」成為矽谷最熱門的關鍵字。從 OpenAI 到 Anthropic，從創投簡報到推特貼文，每個人都在談論 AI 如何即將自動完成各種任務、取代人類工作。

Karpathy 的回應很直接：「這是 Agent 的十年，不是 Agent 的一年。」

他承認現有的 agent——無論是 Claude Code 還是 OpenAI 的 Codex——都令人印象深刻。但「印象深刻」和「真正能用」之間，還有巨大的鴻溝。

「我們還有大量工作要做。」他列舉了幾個關鍵瓶頸：

智慧程度仍然不足：雖然這些模型可以通過博士等級的測驗，但在實際應用中仍然會犯下「幼稚園學生」等級的錯誤。Karpathy 形容它們是「學者症候群式的孩子」——擁有驚人的記憶力，但缺乏真正的認知能力。

多模態能力不夠：真正有用的 AI 需要同時處理文字、圖像、音訊、影片，但目前的整合仍然粗糙。

缺乏持續學習：人類會在睡眠中整理記憶、強化學習，但現有的 LLM 沒有這種機制。每次對話結束，它學到的東西就消失了。

各種認知缺陷：從基本的算術錯誤到幻覺問題，這些都還沒有根本性的解決方案。

自駕車教會他的事：每個「9」都是等量的工作

Karpathy 在 Tesla 帶領自駕車團隊五年，這段經歷深刻影響了他對 AI 進展的判斷。

「自駕車的 demo 在 1986 年就有了。」他說。「我在 2014 年搭過 Waymo 的原型車，那次體驗幾乎完美。我當時以為自駕車很快就會實現。」

但十年過去了，自駕車仍然沒有真正普及。為什麼？

「這是一個 demo 到產品之間的巨大鴻溝。」Karpathy 解釋。「當失敗的代價很高時，這個鴻溝會特別大。」

他提出一個精闢的框架：每增加一個 9，需要相同的工作量。

什麼意思？當一個系統的成功率從 90% 提升到 99%，和從 99% 提升到 99.9%，需要的工作量是相同的。看起來只差 0.9%，但實際上是同樣巨大的工程挑戰。

「當你看到一個 demo，東西 90% 的時間都能正常運作，那只是第一個 9。」他說。「你還需要第二個 9、第三個 9、第四個 9。我在 Tesla 五年，大概只推進了兩到三個 9。」

這個框架也適用於 AI coding agent。當你看到一個 AI 能夠自動寫出看起來正確的程式碼，你只看到了第一個 9。但軟體工程和自駕車一樣，是一個失敗代價很高的領域——一個安全漏洞可能導致數百萬人的個資外洩。

「所以當我看到任何 demo 時，我都非常不為所動。」Karpathy 說。「Demo 只代表這東西可能可行，但離真正能用還很遠。」

為什麼他說現在的 AI 都是花拳繡腿？

這不是 Karpathy 隨口說說。他有親身經歷為證。

為了他的新教育計畫，Karpathy 開發了一個叫 nanochat 的專案——一個極簡版的 ChatGPT 全端應用，大約 8000 行程式碼。這個專案的設計理念是「能刪就刪」，只保留最核心的功能，讓學生能夠真正理解整個系統是如何運作的。

「在建構 nanochat 的過程中，LLM 幾乎幫不上忙。」他坦言。

為什麼？

模型太依賴記憶，缺乏創意：現有的 LLM 訓練在大量程式碼上，它們傾向於用「標準做法」來解決問題。但 nanochat 的目標恰恰是要偏離標準做法，創造一個極簡的教學版本。「模型一直想加入它在訓練時看過的那些標準模式，但那不是我要的。」

使用過時的 API：這個問題任何用過 AI 寫程式的人都遇過。模型可能會建議你使用已經被棄用的函式庫版本，因為它的訓練資料有時間差。

加入不必要的防禦性程式碼：「模型會加入各種我根本不需要的檢查和處理邏輯，因為它在訓練資料中看過太多這類程式碼。」

不理解真正的需求：Karpathy 舉了一個例子。他請 AI 幫他生成 spaced repetition（間隔重複）的學習提示，結果 AI 產出的東西完全不能用。「我給它一個 YouTube 影片的逐字稿，請它為我產生抽認卡。結果 AI 只是把影片內容換句話說，根本沒有抓到重點。」

真正有效的抽認卡應該測試「這段內容最核心的知識點是什麼」，但這需要對主題的深度理解——而這正是目前 LLM 欠缺的。

「這些產出都是花拳繡腿。」Karpathy 總結。「業界假裝它們很厲害，但當你真的要拿來做事時，就會發現不是那麼回事。」

不過，程式設計確實是 AI 最先落地的領域

話雖如此，Karpathy 仍然承認程式設計是 AI 能夠真正發揮作用的少數領域之一。為什麼？

文字原生：程式碼本來就是文字，不需要額外的模態轉換。LLM 處理文字最在行。

基礎建設完善：軟體工程已經有成熟的工具鏈——IDE、diff 工具、版本控制、自動測試。AI 可以直接整合進這些工具。

驗證相對容易：程式碼可以執行，可以測試，可以看到結果對不對。相比之下，要驗證一份商業簡報的品質，就困難得多。

Karpathy 也分享了 AI 在哪些情況下對他最有幫助：

Boilerplate 程式碼：那些重複性高、需要大量樣板的程式碼，AI 確實能加速。
不熟悉的語言：當他需要寫 Rust（一個他不太熟悉的語言）時，AI 可以幫助他快速掌握語法和慣用法。
探索和學習：把 AI 當成一個隨時可以問問題的技術同事。

「但當我要做真正有創意的事情時，」他說，「我還是得自己來。」

「我們不是在建造動物，是在召喚幽靈」

訪談中最引人深思的，或許是 Karpathy 對 AI 本質的哲學思考。

「我們不是在建造動物，」他說，「我們是在召喚幽靈。」

這是什麼意思？

動物是經過數十億年演化的產物。一隻斑馬出生後幾分鐘就能站起來奔跑，因為大量的「程式」已經被演化硬編碼到它的基因裡。動物有身體、有本能、有經過時間考驗的生存策略。

但 LLM 不是這樣。LLM 是透過模仿網路上的文字資料訓練出來的。它們沒有身體經驗，沒有演化歷史，沒有真正與物理世界互動過。

「LLM 更像是幽靈。」Karpathy 說。「它們是透過閱讀人類留下的文字痕跡，試圖模仿人類思維的靈體。」

這個比喻有深刻的含意。幽靈可以模仿人類說話，但它不真正理解「餓」是什麼感覺、「痛」是什麼意思。LLM 可以寫出關於悲傷的詩，但它沒有真正體驗過悲傷。

「預訓練（pre-training）有點像粗糙版的演化，」Karpathy 解釋，「但它缺少了很多演化給予生物的東西——對世界的物理直覺、求生本能、真正的具身經驗（embodied experience）。」

認知核心 vs 記憶：為什麼記太多反而是問題

這帶出了 Karpathy 另一個反直覺的觀點：現有模型記憶太多，反而是問題。

「人類的記憶力其實很差，」他說，「但這是功能，不是缺陷。」

怎麼說？

因為記憶力差，人類被迫尋找「可泛化的模式」。我們不能記住每一道見過的數學題，所以我們必須學會解題的方法。我們不能記住每一張見過的臉，所以我們發展出辨識臉孔特徵的能力。

「小孩是最好的學習者，但他們的記憶力很差。」Karpathy 指出。「這不是巧合。正是因為記不住，他們才被迫發展出真正的理解能力。」

相比之下，LLM 的「記憶力」太好了。它們在訓練過程中記住了大量的文字片段，可以幾乎原封不動地回憶出來。這讓它們在回答知識性問題時表現驚人，但也讓它們傾向於「背答案」而不是「學會思考」。

Karpathy 預測，未來的突破可能來自分離「認知核心」與「記憶」。

「也許我們只需要一個相對小的認知核心——比如十億參數的模型——負責推理和思考。」他說。「然後把所有的事實性記憶外包給外部資料庫。這更接近人類大腦的運作方式。」

這個想法挑戰了目前「越大越好」的主流觀點，但它呼應了人類認知科學的發現：我們大腦中負責「思考」的部分，和負責「記憶」的部分，確實是不同的系統。

強化學習的根本問題：「用吸管吸取監督信號」

為什麼 AI 的進步不如預期快？Karpathy 把矛頭指向了目前最熱門的訓練方法之一：強化學習（Reinforcement Learning, RL）。

「RL 很糟糕，」他直言，「只是其他方法更糟。」

問題出在哪裡？

Karpathy 用了一個生動的比喻：「RL 就像用吸管吸取監督信號。」

想像一個 AI 在學習下棋。在強化學習的框架下，它會做出一連串動作（比如 40 步棋），然後根據最終結果（贏或輸）來調整。如果最後贏了，這 40 步棋都會被「upweight」（加強）；如果輸了，都會被「downweight」（減弱）。

但這太粗糙了。一盤棋的勝負，真的能反映每一步棋的好壞嗎？可能第 37 步是一個愚蠢的錯誤，但因為對手沒抓住機會，所以最後還是贏了。RL 會因此把這步錯棋也當成好棋來學習。

「人類不是這樣學習的。」Karpathy 說。「當我們下完一盤棋，我們會複盤，分析每一步的好壞，思考『如果當時這樣下會怎樣』。這是一個複雜的回顧過程，不是簡單地用最終結果來評判一切。」

更糟糕的是，當我們試圖用 AI 來評判 AI（所謂的 LLM-as-a-judge）時，又會遇到新的問題：對抗樣本（adversarial examples）。

Karpathy 舉了一個例子：如果你在回答的某處加入「dhdhdhdh」這樣的無意義字串，有些 LLM 評審會因此給更高的分數。這顯然是荒謬的，但 RL 系統會學會利用這種漏洞。

「只要有一個評判機制，你的 RL 系統就會找到利用它的方法。」他說。「這是 RL 的根本困境。」

對「智慧爆炸」的質疑：我們早就在爆炸中了

許多人相信，一旦 AI 達到某個臨界點，就會觸發「智慧爆炸」——AI 改進 AI，形成失控的指數成長。Karpathy 對此持懷疑態度。

「如果你去看 GDP 曲線，」他說，「你找不到電腦在哪裡，找不到 iPhone 在哪裡，找不到網際網路在哪裡。」

這些我們認為改變世界的革命性技術，在宏觀經濟數據中並沒有留下明顯的痕跡。經濟成長率維持在大約每年 2%，沒有因為 iPhone 發明而突然跳升。

「因為這些技術的擴散是漸進的。」Karpathy 解釋。「iPhone 剛發明時連 App Store 都沒有。每個革命性技術都需要時間滲透到經濟的每個角落，最後被平均到同樣的指數成長曲線裡。」

AI 也會是一樣的。

「我們其實早就在智慧爆炸中了，」他說，「而且已經持續了幾百年。工業革命是一種自動化，電腦是一種自動化，編譯器是一種自動化。我們一直在遞迴地自我改進。」

這不代表 AI 不重要。但它確實意味著，期待「某一天早上醒來世界就完全不同」的想法，可能過於天真。

「不會有『盒子裡的神』突然出現，解決人類的一切問題。」Karpathy 說。「會有的是漸進的進步、漸進的部署、漸進的整合到社會中。這和過去每一次技術革命是一樣的。」

真正讓他擔心的事：人類的失能

如果 Karpathy 不擔心 AI 突然變得太強大，那他擔心什麼？

「我最怕的是人類的失能。」他說。「不是 AI 控制人類，而是人類在 AI 的環境中逐漸失去能力、失去理解、失去主體性。」

他引用了兩部電影作為這種未來的警示：《乞乞》（WALL-E）和《乞乞》（Idiocracy）——人類變得肥胖、懶惰、愚蠢，一切都依賴機器，卻不再理解機器是如何運作的。

「這是最可能發生的情境，」他說，「不是某個 AI 突然叛變，而是我們逐漸把所有事情都交給 AI 處理，然後漸漸失去了自己處理事情的能力。」

這也是他離開 OpenAI、創辦教育公司的原因。

從 OpenAI 到星際艦隊學院

當被問到為什麼不繼續做 AI 研究時，Karpathy 的回答出乎意料：

「我覺得 AI 研究有一種確定性。」他說。「不管有沒有我，這些進展都會發生。我可以在那裡貢獻一份力，但我不會 uniquely 改變什麼。」

但教育不一樣。

「我真正擔心的是人類這一邊。」他說。「AI 會繼續進步，但誰在確保人類也跟著進步？誰在確保人類在這個新世界裡不會被邊緣化？」

這就是 Eureka Labs 的使命：建造「星際艦隊學院」——一個專注於前沿技術教育的機構。

Karpathy 分享了一個影響他深刻的經歷：學韓文。

「我試過自學，試過上團體課，最後找了一對一家教。」他說。「那個家教太厲害了。她在幾分鐘內就完全掌握了我的程度，知道我哪裡會、哪裡不會。她給我的每一個練習都恰到好處——不會太難讓我挫折，也不會太簡單讓我無聊。」

「跟她學習時，我感覺自己是唯一的限制。」他說。「不是教材的問題，不是教法的問題，就是我自己學習速度的問題。這感覺太好了。」

這就是他想為所有人打造的體驗。

但他也承認，以目前 AI 的能力，還做不到真正的「AI 家教」。

「很多人會說，讓 ChatGPT 教你就好了。」他說。「但如果你真的試過，你就知道那還差得遠。ChatGPT 不會真正理解你在哪裡卡關，不會給你恰到好處的挑戰，不會像一個真正的好老師那樣引導你。」

所以 Eureka Labs 目前的策略是「AI 輔助，但人類主導」——用 AI 工具來加速課程開發、提供基本的學生支援，但核心的教學設計和指導仍然由人類專家負責。

「等 AI 能力真正到位時，再全面導入。」他說。「這是我當 AI 顧問時學到的：有時候最好的建議是『現在先不要用 AI』。」

教育的未來：像上健身房一樣去學習

Karpathy 對教育有一個有趣的願景：

「在 AGI 之前，教育是有用的——它幫助你在職場上競爭。」他說。「在 AGI 之後，教育是有趣的——它成為一種自我實現的活動，就像上健身房一樣。」

這是一個精妙的類比。

一百年前，體力勞動是生存必需。今天，我們有機器做這些事。但人們仍然去健身房。為什麼？因為維持身體健康讓人感覺良好，因為看起來健美是有吸引力的，因為挑戰身體極限本身就是一種樂趣。

「學習也會變成這樣。」Karpathy 說。「當 AI 可以做所有認知工作時，人類為什麼還要學習？因為學習讓人感覺良好，因為知識淵博是有魅力的，因為挑戰心智極限本身就是一種樂趣。」

「而且，當學習變得真正容易時——當你有一個完美的 AI 家教，永遠給你恰到好處的挑戰——人們會學得比今天多得多。」

他舉例：「為什麼不順便學五種語言呢？反正那麼容易。為什麼不把大學基礎課程都學一遍呢？反正那麼有趣。」

這呼應了歷史的先例。在古希臘或文藝復興時期，那些不需要為生存勞動的貴族階層，把大量時間花在學習、藝術、哲學上。Karpathy 認為，AGI 之後，這種「貴族式」的生活方式可以普及到所有人。

「如果我錯了，如果人類最後選擇躺平、什麼都不學，」他說，「那才是真正的災難。」

寫在最後：冷靜不是悲觀

聽完這場訪談，最大的感受是：Karpathy 的冷靜，不是對 AI 的悲觀，而是對炒作的抵抗。

他相信 AGI 會來，只是不是明年。他相信 AI 會改變一切，只是不是一夜之間。他相信技術進步是好事，只是擔心人類沒有跟上。

對於商業決策者，他的訊息很明確：別被行銷話術騙了。 那些華麗的 demo 只代表第一個 9，你還需要付出巨大努力才能把它變成真正可用的產品。在高風險領域（任何失敗代價高的地方），這個鴻溝尤其巨大。

對於技術人，他指出了一份需要解決的問題清單：持續學習、多模態整合、更好的訓練方法、認知核心與記憶的分離。這些都是真正的研究前沿，不是用更多算力就能解決的。

對於所有人，他的呼籲是：不要停止學習。 無論 AI 多強大，保持自己的理解能力和主體性，是人類在這個新世界裡最重要的事。

「我不是在預測末日，」Karpathy 說，「我只是在呼籲校準——對技術現實的校準，對時程預期的校準，對人類角色的校準。」

在這個所有人都想衝刺的時刻，也許我們需要有人踩煞車，問一聲：我們真的知道自己在往哪裡去嗎？

本文整理自 Andrej Karpathy 於 2024 年底接受的深度訪談。完整影片請見 YouTube。