RLHF | AINEXT

John Schulman 每天大量使用 AI 做研究——文獻搜尋、發展想法、寫作反饋。但他堅持一件事：研究工作不該讓 AI 寫你沒讀過的程式碼。做出最好成果的人，對每一行程式碼都瞭若指掌。

Klarna 高調宣稱 AI 取代 700 名客服，一年後全面撤回。前麥肯錫 QuantumBlack Labs 主管 Matt Fitzpatrick 認為，問題不在 AI 能力不足，而在於『全自動 …

Surge AI 創辦人 Edwin Chen 深度訪談：為什麼 AI 訓練不是「標註貓照片」？諾貝爾獎等級的詩如何定義品質、RL 環境如何模擬真實世界，以及為什麼人類在 AI 訓練中不會消失。

理察·薩頓（Richard Sutton）是「強化學習之父」，2024 年圖靈獎得主。他定義了強化學習的理論框架和核心演算法，他的著作《強化學習導論》培養了整整一代研究者。沒有他的工作，就沒有 …