Anthropic 發布「憲法分類器」技術,以自然語言規則定義有害內容,搭配瑞士乳酪式多層防禦架構,將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策(RSP)到公開 …