AI 產業動態 2026 年 1 月 22 日

PPO 發明者的 AI 使用哲學：讓模型幫忙，但要理解每一行程式碼

John Schulman 每天大量使用 AI 做研究——文獻搜尋、發展想法、寫作反饋。但他堅持一件事：研究工作不該讓 AI 寫你沒讀過的程式碼。做出最好成果的人，對每一行程式碼都瞭若指掌。

來源： Cursor Podcast

本文整理自 Cursor Podcast 對 John Schulman 的訪談。

John Schulman 發明了 PPO 演算法——這是目前大型語言模型 RLHF 訓練的核心技術。他是 OpenAI 共同創辦人，領導強化學習研究多年。如果有人有資格談「頂尖 AI 研究者如何使用 AI」，那就是他。

這場訪談中，他分享了自己的工作流程，以及一個看似矛盾的堅持。

先搞懂：什麼是 PPO？什麼是 RLHF？

在進入 Schulman 的工作哲學之前，值得花點時間理解他發明的東西有多重要。

想像你在教一隻狗。狗做對了，你給零食；做錯了，你不給。久了，狗學會什麼行為會得到獎勵。這就是**強化學習（Reinforcement Learning, RL）**的基本概念：透過獎勵和懲罰，讓 AI 學會做出「好」的行為。

但教 AI 比教狗難多了。AI 的「行為空間」巨大無比——一個語言模型在每個字都有幾萬種選擇，一篇文章下來就是天文數字的可能性。如果 AI 每次學習都大幅調整自己的行為，很容易「學歪」，像是一個本來會走路的人，學了新東西之後反而連走路都忘了。

**PPO（Proximal Policy Optimization，近端策略優化）**就是 Schulman 在 2017 年提出的解法。它的核心概念是「小步快跑」——每次學習只允許 AI 做小幅度的調整，確保不會一次改太多而崩壞。就像教小孩寫字，你不會期待他一天從不會寫變成書法家，而是每天進步一點點，穩穩地往前走。

那 **RLHF（Reinforcement Learning from Human Feedback，從人類回饋學習的強化學習）**又是什麼？

ChatGPT 之所以好用，不只是因為它讀了很多書。關鍵在於它經過「人類偏好」的調教。OpenAI 請了一群人來評分：給 AI 兩個回答，問「哪個比較好？」。這些人類偏好的資料，就被拿來訓練 AI，讓它學會產出「人類覺得好」的回答。

但要怎麼把「人類覺得好」這種模糊的概念，變成 AI 可以學習的訊號？這就是 RLHF 的工作。而 PPO 就是 RLHF 裡面負責「實際調整 AI 行為」的核心引擎。

打個比方：如果 RLHF 是一間駕訓班，PPO 就是那個教練。教練的工作是根據學員的表現（人類回饋），一點一點調整學員的駕駛習慣，既不能太保守讓學員學不到東西，也不能太激進讓學員養成壞習慣。PPO 的精妙之處，就是在這兩者之間找到平衡。

ChatGPT、Claude、Gemini，這些你每天在用的 AI，背後都有 PPO 的影子。可以說，沒有 PPO，就沒有今天的聊天機器人革命。而 Schulman 就是發明這個演算法的人。

Schulman 如何使用 AI

他每天大量使用 AI。寫程式時，他用 Cursor（內建 AI 的編輯器）和 Claude Code。做研究時，有想法就直接丟給 GPT-5 Pro 做文獻搜尋，或是寫一兩段模糊的想法讓模型幫忙展開。找開源程式庫、迭代發展想法，這些他都仰賴 AI。寫作時，他把草稿給聊天模型當作第一輪反饋——大部分思考還是自己做，但模型是好用的迴音板。

他特別強調文獻搜尋能力：「以前找相關文獻要花很多時間，現在快多了。」

研究筆記本在 LLM 時代更重要

Schulman 在 2020 年寫過一篇關於有效研究的部落格文章，提到保持研究筆記本、透過大量閱讀論文培養品味等建議。他說這些建議現在仍然適用，但有一個變化：

「保持研究筆記本現在可能更有用了，因為我們有 LLM。Context 非常重要。如果你想要對你正在做的事情獲得好的反饋，你可以把筆記本貼給 LLM，就能得到反饋。」

這是個微妙但重要的洞見。LLM 的品質高度依賴 context。有組織的筆記本，讓你能提供更好的 context，獲得更有用的反饋。

關鍵堅持：理解每一行程式碼

但 Schulman 也提出一個重要警告。

他說 AI 輔助寫程式在一般軟體工程領域可能有效——定義規格，讓模型實作。但研究不同：

「我認為對研究來說，知道每一行程式碼究竟在做什麼是有很大價值的。做出最好成果的人，真的對整個系統有那樣的理解——一直到最底層的細節。」

這與當前「讓 AI 幫你寫完整個實作」的風潮形成對比。他的邏輯是：研究的本質是理解和發現，如果你不理解程式碼在做什麼，你就不理解實驗在做什麼，不理解實驗就無法做出真正的洞見。最好的研究者對系統有完整理解。

這不是說不用 AI，而是說 AI 輔助的方式要對。讓 AI 幫忙加速你理解的過程，而不是讓 AI 替代你的理解。

他的一天：咖啡廳、筆記本、執行

Schulman 描述自己的研究日常。在想法形成階段，他喜歡去咖啡廳，周圍有背景噪音，帶著咖啡和筆記本，記下想法，排除干擾。到了執行階段，如果自己動手就是寫程式，但他也花大量時間閱讀文件、他人的訊息、看圖表和程式碼。現在做很多研究指導，主要是 review 他人的工作。

這種「分階段」的工作方式值得注意。想法形成需要空間和安靜（即使是咖啡廳的背景噪音那種安靜），執行需要專注和細節。

我的觀察：什麼時候該理解，什麼時候該放手

Schulman 的「理解每一行程式碼」聽起來很 hardcore，在 2026 年幾乎像是反潮流。但仔細想，他區分的是兩種不同的工作。

一種是需要深度理解的工作：研究、核心產品邏輯、會影響關鍵決策的程式碼、你需要能 debug、能改進、能解釋的東西。另一種是不需要深度理解的工作：樣板程式碼、一次性腳本、標準化的串接、別人定義好規格的實作。

問題是：大多數人把前者當成後者處理。

當你讓 AI 寫了大量你沒讀過的程式碼，你其實是在累積技術債——不是程式碼的技術債，而是理解的技術債。這個債會在最意想不到的時候爆發：debug 時不知道從哪裡下手，需要改動時不知道會影響什麼，向他人解釋時說不清楚，做決策時缺乏直覺。

Schulman 的建議不是「不要用 AI」，而是「用 AI 的方式要對」。

每次讓 AI 寫完一段程式碼後，問自己三個問題：我能向別人解釋這段程式碼在做什麼嗎？如果出 bug，我知道從哪裡開始找嗎？如果需要改動，我知道會影響什麼嗎？如果三個問題都答不出來，你可能需要花時間理解它——或者重新寫一個你理解的版本。

讓 AI 加速你的理解，而不是替代你的理解。

這是 PPO 發明者給我們的提醒。