RL | AINEXT

Andrej Karpathy 對強化學習提出尖銳批評：我們正在「用吸管吸取監督訊號」。人類根本不是這樣學習的。但目前沒有更好的方法，所以我們只能繼續用這個「很糟糕」的工具。

理察·薩頓（Richard Sutton）是「強化學習之父」，2024 年圖靈獎得主。他定義了強化學習的理論框架和核心演算法，他的著作《強化學習導論》培養了整整一代研究者。沒有他的工作，就沒有 …