Anthropic 研究團隊深度討論 AI 控制(AI Control)策略:假設模型可能不對齊,透過多層監控、可信任監督者、紅隊/藍隊演練,確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …