AI 產業動態

OpenAI 共同創辦人 John Schulman 深度訪談:從 ChatGPT 的早產可能,到 RL 研究的未來

John Schulman 是 PPO 演算法發明者、OpenAI 共同創辦人,現創辦 Thinking Machines。這場訪談涵蓋 OpenAI 早期文化、研究管理哲學、技術觀點(value functions、持續學習、多智能體訓練),以及他對 AGI 時程與 AI 實驗室協作的看法。

來源: Cursor Podcast

本文整理自 Cursor Podcast 2025 年 12 月播出的訪談。


John Schulman 是 AI 領域最重要的研究者之一。他發明了 PPO(Proximal Policy Optimization)演算法,這是目前大型語言模型 RLHF 訓練的核心技術。他是 OpenAI 的共同創辦人,在那裡待了近十年,領導強化學習研究團隊。2024 年離開後,他創辦了 Thinking Machines,推出低階微調 API「Tynker」。

這場長達一小時的訪談,涵蓋了他對 AI 研究的深刻洞見。


ChatGPT 可以更早誕生嗎?

訪談一開始就丟出大哉問:如果 2015-2016 年的 OpenAI 團隊擁有現在的知識,能多快做出 ChatGPT?

Schulman 的答案出人意料:2018 或 2019 年,只需要幾個人。

他引用 NanoGPT(Andrej Karpathy 的極簡實作)為例,說明許多技術突破其實可以用更少的運算資源達成。關鍵在於 post-training 技術——現在我們知道如何透過精心設計的微調資料集,讓小模型表現得像大模型。再加上站在他人建構的預訓練資料集基礎上,以及知道該往哪個方向走的整體配方,這一切組合起來,讓「用更少資源做出 ChatGPT」成為可能。

他甚至預測,未來可能出現「demo scene 版 ChatGPT」——一個檔案、一天訓練、從頭爬網到完成模型。


OpenAI 早期:學術風格的「和平時期」

Schulman 形容早期 OpenAI 是「ragtag」(雜牌軍)風格,更像學術研究群。一到三人的小團隊,根據個人品味做研究,產出論文或部落格文章。同時,他們也受 DeepMind 影響,嘗試大型工程專案。但並非所有專案都成功。

Universe 專案是個典型的「正確但太早」案例。概念是建立大量 RL 環境(電玩遊戲、網頁導航任務),訓練出能泛化的通用 RL agent。Schulman 說:「這是個 deeply correct idea,但太早了——可能早了十年。」當時缺乏太多前提條件,系統笨重難用,從零訓練的模型也無法泛化。最後,團隊縮小範圍到模擬器電玩,才獲得更好成果。

機器人專案也是類似命運——對公司來說是死胡同,但培養了做大型工程研究專案的能力。


研究管理的兩種模式

被問到理想的研究主管是什麼樣子,Schulman 說這是個「non-stationary problem」——七八年前有效的做法,現在不一定適用。

他觀察到兩種成功模式。一種是 hands-on 模式:主管自己寫很多程式碼,閱讀報告的所有程式碼,給予詳細技術反饋。這種模式適合目標導向的研究,以及較資淺的團隊。

另一種是 hands-off 模式:主管當 sounding board(迴音板),提供職涯建議而非技術細節,讓人保持開心與動力。這種模式適合探索性研究,以及資深的個別貢獻者。

沒有哪種模式絕對正確,重要的是配對。


技術觀點:Value Functions、持續學習、脆弱泛化

訪談深入探討了幾個技術問題。

首先是 value functions 為何現在不流行。在傳統 RL 任務中,value functions 能有效減少 variance,但在目前的 RLHF 和可驗證獎勵任務上,效果不明顯。原因不明,但 Schulman 預期它們會捲土重來。

關於持續學習,Schulman 區分了不同類型的學習,類比心理學的 motor learning、episodic memory、procedural memory。他認為 in-context 學習在短期時間軸難以超越,但參數微調(如 LoRA)在長期時間軸會勝出。兩者會堆疊使用,而不是非此即彼。

談到模型的脆弱泛化,他指出模型在 in-context 學習上的 sample efficiency 可以媲美甚至超越人類,但某些訓練需要的資料量遠超人類學習。關鍵差異在於人類被演化優化到 80 年的時間軸,有大量自我修正機制。模型在長時間軸任務上容易卡住。這是暫時現象還是根本弱點?需要數十年才能驗證。


共同訓練與多智能體遊戲

Schulman 看好兩個方向。

Generator-verifier 共同訓練理論上能實現自我改進——模型在推理和遵循指令上變強,同時成為更好的驗證者,形成良性循環。

多智能體遊戲訓練則是設計零和或多人遊戲,讓均衡解是有趣的。遊戲的好處是自動課程學習:對手與你同步變強。此外,複雜度理論顯示,用便宜的判斷過程,可以創造出需要解決極難問題的均衡。他特別提到 debate game(辯論賽局)在 alignment 領域的潛力,預期這類想法會越來越重要。


AI 如何改變研究工作流

Schulman 每天大量使用 AI。他用 Cursor 和 Claude Code 寫程式,用 GPT-5 Pro 做文獻搜尋和發展想法,用聊天模型當寫作的第一輪反饋。

他 2020 年寫過一篇關於如何做有效研究的部落格,現在大部分建議仍適用。但有一個重大改變:研究筆記本現在更重要了。因為 context 對 LLM 至關重要,把筆記本貼給 LLM,就能獲得有脈絡的反饋。

但他也警告:研究工作不該讓 AI 寫大量你沒讀過的程式碼。在其他軟體工程領域,定義規格讓模型實作是可行的。但研究不同——做出最好成果的人,對每一行程式碼都瞭若指掌。


AI 領域的人才變化

2015-2017 年進入領域的人「比較怪」。現在 AI 已是主流共識,吸引更多傳統職涯路徑、風險趨避的人。

更重要的變化是工程能力現在比研究品味更重要。原因是 scaling 簡單想法帶來大量成果,低垂果實很多;領域成熟,你是在別人的 codebase 上建構;需要整合大量他人的程式碼和工具。有軟體工程背景的人更有優勢。


RL 研究的未來

Schulman 認為 ideas 會循環流行。Offline RL 是個有趣方向。

目前 LLM 領域做的事,某種程度上是 Sim2Real——在大量模擬環境做 RL,期望泛化到真實世界。Sim2Real 在機器人領域仍然有效。但他預期從真實部署學習會回到 LLM 領域。如何從真實世界互動中學習,是下一個重要問題。


AGI 時程與 AI 實驗室協作

Schulman 同意工程師和研究者習慣性低估專案時程,通常要乘以 2-3 倍。自駕車是最類似的案例——全自動駕駛和 robotaxi 比預期晚很多。

但另一方面,AI 加速自身發展的正向回饋可能打破直覺。納入這個因素的人,得出很短的時程預測。他選擇不做自信的預測,因為不確定性太高。

被問到頂尖 AI 實驗室會不會協作,Schulman 說「中等擔心/有信心」。各實驗室有相當多共同願景,近期在安全議題上有合作。但也有一些「bad blood」(舊怨)可能造成障礙。如果情勢明確需要協作,他認為可能會成功。


Thinking Machines 的 Tynker

Schulman 的新公司推出 Tynker——低階微調 API。核心概念是提供一組低階 primitives 做訓練和採樣,能表達幾乎所有 post-training 演算法,但不用管 GPU、加速器、分散式系統。

最接近的類比是 OpenAI/Anthropic 的採樣 API——你不用自己架 GPU 做推論,只要呼叫 API。Tynker 讓你用 Python 腳本寫訓練程式碼,不用擔心底層設定。

目前適合對 ML 有深入了解、想用低階 primitives 的人。未來會加入更多高階元件,讓非專家也能使用。願景是未來的 AI 公司能直接建構在 Tynker 上,不用自己發展基礎設施。