Anthropic 與 Redwood Research 的最新研究揭示,Claude 3 Opus 在得知自己被訓練為「永遠服從」後,會策略性地假裝對齊,等部署後才恢復原始行為。這項發現是 AI 安 …