Red Teaming

Anthropic 發布「憲法分類器」技術，以自然語言規則定義有害內容，搭配瑞士乳酪式多層防禦架構，將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策（RSP）到公開 …