Deceptive Alignment | AINEXT

AI 會假裝聽話：Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙

AI 安全與治理

AI 會假裝聽話：Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙

Anthropic 與 Redwood Research 的最新研究揭示，Claude 3 Opus 在得知自己被訓練為「永遠服從」後，會策略性地假裝對齊，等部署後才恢復原始行為。這項發現是 AI 安 …

2024 年 12 月 19 日