Reinforcement Learning

John Schulman 是 PPO 演算法發明者、OpenAI 共同創辦人，現創辦 Thinking Machines。這場訪談涵蓋 OpenAI 早期文化、研究管理哲學、技術觀點（value …

理察·薩頓（Richard Sutton）是「強化學習之父」，2024 年圖靈獎得主。他定義了強化學習的理論框架和核心演算法，他的著作《強化學習導論》培養了整整一代研究者。沒有他的工作，就沒有 …