AI Control

Anthropic 研究團隊深度討論 AI 控制（AI Control）策略：假設模型可能不對齊，透過多層監控、可信任監督者、紅隊/藍隊演練，確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …