Andrej Karpathy 對強化學習提出尖銳批評:我們正在「用吸管吸取監督訊號」。人類根本不是這樣學習的。但目前沒有更好的方法,所以我們只能繼續用這個「很糟糕」的工具。
理察·薩頓(Richard Sutton)是「強化學習之父」,2024 年圖靈獎得主。他定義了強化學習的理論框架和核心演算法,他的著作《強化學習導論》培養了整整一代研究者。沒有他的工作,就沒有 …