RL 訓練

AI 模型在各種評測上表現驚人，但實際經濟影響卻遠遠落後。Ilya Sutskever 提出兩個解釋：RL 訓練讓模型過度專精，以及研究者不自覺地追著 eval 跑。這解釋了為什麼你的 AI 助手有時 …