RLHF

AI 產業動態
PPO 發明者的 AI 使用哲學:讓模型幫忙,但要理解每一行程式碼
John Schulman 每天大量使用 AI 做研究——文獻搜尋、發展想法、寫作反饋。但他堅持一件事:研究工作不該讓 AI 寫你沒讀過的程式碼。做出最好成果的人,對每一行程式碼都瞭若指掌。

AI 開發實戰
Human in the Loop 不是臭蟲,是功能——為什麼 AI 全自動化的狂熱走錯了路
Klarna 高調宣稱 AI 取代 700 名客服,一年後全面撤回。前麥肯錫 QuantumBlack Labs 主管 Matt Fitzpatrick 認為,問題不在 AI 能力不足,而在於『全自動 …

AI 產業動態
從資料標註到「養育人類的孩子」——AI 訓練的真相
Surge AI 創辦人 Edwin Chen 深度訪談:為什麼 AI 訓練不是「標註貓照片」?諾貝爾獎等級的詩如何定義品質、RL 環境如何模擬真實世界,以及為什麼人類在 AI 訓練中不會消失。
理察·薩頓
理察·薩頓(Richard Sutton)是「強化學習之父」,2024 年圖靈獎得主。他定義了強化學習的理論框架和核心演算法,他的著作《強化學習導論》培養了整整一代研究者。沒有他的工作,就沒有 …