John Schulman 是 PPO 演算法發明者、OpenAI 共同創辦人,現創辦 Thinking Machines。這場訪談涵蓋 OpenAI 早期文化、研究管理哲學、技術觀點(value …
理察·薩頓(Richard Sutton)是「強化學習之父」,2024 年圖靈獎得主。他定義了強化學習的理論框架和核心演算法,他的著作《強化學習導論》培養了整整一代研究者。沒有他的工作,就沒有 …