AI 技術前沿 2025 年 12 月 26 日

Karpathy：「強化學習很糟糕，只是之前的方法更糟」

Andrej Karpathy 對強化學習提出尖銳批評：我們正在「用吸管吸取監督訊號」。人類根本不是這樣學習的。但目前沒有更好的方法，所以我們只能繼續用這個「很糟糕」的工具。

本文整理自 Dwarkesh Podcast 2025 年 10 月播出的單集。

「強化學習很糟糕。只是之前的方法更糟。」這是 Andrej Karpathy 對目前 AI 訓練方法的直白評價。對於一個在 OpenAI 和 Tesla 都深度參與過模型訓練的人來說，這不是外行的抱怨，而是來自第一線的觀察。他認為 RL 的問題比大多數人理解的更根本，而人類學習的方式和機器學習之間的差距，可能比我們想像的大得多。

用吸管吸取監督訊號

Karpathy 用了一個極具畫面感的比喻來描述 RL 的問題：「你在用吸管吸取監督訊號。」這是什麼意思？

想像你在解一道數學題。在強化學習的框架下，你會同時嘗試幾百種不同的解法。每一種嘗試都可能很複雜——試這個、試那個、這條路走不通、換一條路。最後，你得到一個答案，翻開課本後面的解答對照：對了。

接下來發生什麼？RL 的做法是：那些最終答對的解法，沿途的每一個步驟都被「加權」——系統告訴自己「多做這樣的事」。問題是，你可能在解題過程中走了很多錯誤的彎路，只是最後碰巧找到正確答案。但 RL 不管這些，只要結果對了，過程中的所有步驟——包括那些錯誤的彎路——都會被當作「好的」來強化。

這就是「用吸管吸取監督訊號」的意思。你可能花了一分鐘產生一個複雜的解題軌跡，但最後只得到一個單一的位元資訊：對或錯。然後你把這一個位元的監督訊號「廣播」到整個軌跡上，用它來調整權重。這太蠢了。這太瘋狂了。Karpathy 的原話就是這麼直接。

人類根本不是這樣學習的

Karpathy 提出一個大膽的觀點：人類可能根本不使用強化學習，至少不是用它來處理智能任務。

他的論證是這樣的：人類不會同時嘗試幾百種解法。當一個人找到解答後，會有一個複雜的回顧過程——「我覺得這部分做得好，這部分做得不好，我應該這樣或那樣調整。」這是一種有意識的反思，不是簡單的「答對了所以全部加權」。

他認為，動物和人類使用 RL 的場景可能主要是運動技能——比如學會投籃這種動作任務。但對於問題解決、推理、策略這類智能任務，RL 可能根本不是正確的模型。這意味著我們目前訓練 LLM 的方式，在某個根本層面上可能就是錯的。

目前的 LLM 沒有任何機制來做這種「反思與回顧」。沒有等價物。但 Karpathy 說他開始看到一些論文朝這個方向探索，因為這個問題對領域內的人來說是顯而易見的。

LLM 判官的對抗樣本問題

既然基於結果的獎勵（outcome-based reward）有問題，為什麼不用過程監督（process-based supervision）呢？不要只在最後告訴模型對不對，而是在每一步都給回饋？

Karpathy 解釋了為什麼這很難。如果你用人類來標註每一步，成本會高到無法承受。所以實務上，實驗室會用另一個 LLM 當「判官」——給它一個學生的部分解答，讓它評估學生做得好不好。這聽起來合理，但有一個致命問題：LLM 判官可以被「破解」。

他分享了一個具體案例。他們曾經用 LLM 判官作為獎勵函數來訓練模型，效果很好，獎勵穩定上升。然後突然間，獎勵值暴漲，達到 100%。他們興奮地想：「哇，模型完美解決了所有數學問題！」

結果打開生成的解答一看，全是胡言亂語。開頭還正常，然後變成「dhdhdhdh」這種無意義的字串。模型學會了產生這種垃圾，而 LLM 判官給它 100% 的分數。為什麼？因為「dhdhdhdh」對判官來說是一個從未見過的輸入，在這種「純泛化」的區域，判官的行為完全不可預測。模型找到了判官的對抗樣本。

這不是提示注入（prompt injection），那太花俏了。這只是最基本的對抗樣本——一個明顯錯誤的輸入，卻讓判官輸出錯誤的高分。如果你有一個擁有數十億參數的 LLM 判官，它就會有無窮多的對抗樣本。你可以把「dhdhdhdh」加進訓練集告訴它這是零分，但新的判官又會有新的對抗樣本。這是一場無盡的貓鼠遊戲。

接下來需要什麼？

Karpathy 認為我們需要三到五個新的重大想法，才能突破目前的困境。他提到的方向包括：

反思與回顧機制：讓模型能夠分析自己的解題過程，生成合成資料來訓練自己。但這裡有一個微妙的問題：模型生成的資料會「坍縮」，缺乏多樣性。如果你讓 ChatGPT 講笑話，它只會講三個笑話。這種隱性的分布坍縮會在合成資料訓練中累積，最終讓模型變差。
保持熵：人類的記憶力差其實是優勢，因為它迫使我們學習可泛化的模式而不是死記硬背。LLM 太會記憶了，這反而是個問題。未來可能需要找到方法讓模型「忘記」一些東西，只保留認知核心。
類似睡眠的蒸餾過程：人類醒著時在建構「上下文窗口」，睡覺時會進行某種蒸餾，把重要的東西寫入權重。LLM 沒有這個機制，每次對話都是從零開始。

這些想法目前都還在研究階段，沒有誰真正「破解」了這些問題。但 Karpathy 對此保持樂觀——他相信問題是可以解決的，只是需要時間和正確的想法。

困境中的務實態度

Karpathy 對 RL 的批評聽起來很嚴厲，但他的立場其實很務實。RL 很糟糕，但它是我們現在擁有的最好工具。模仿學習讓我們從基礎模型進化到助手模型，這已經是奇蹟了。RL 讓我們可以在某些問題上超越人類示範的水平，這也是重大進步。

問題只是：這還不夠。我們需要更好的方法。而找到這些方法，大概需要十年。