AI 安全與治理

用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時

Anthropic 發布「憲法分類器」技術,以自然語言規則定義有害內容,搭配瑞士乳酪式多層防禦架構,將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策(RSP)到公開紅隊測試的完整歷程。

來源: Anthropic YouTube
用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時

本文整理自 Anthropic 2025 年 2 月發布的影片討論。


如果你曾經在社群上看過有人炫耀成功越獄 ChatGPT 或 Claude,讓它說出不該說的東西,你大概覺得這不過是個搞笑的惡作劇。但 Anthropic 對這件事的態度完全不同。他們認為,當 AI 模型的能力持續增強,越獄攻擊不再只是好玩的把戲,而是真正的安全威脅。一個能幫助使用者進行複雜科學推理的模型,如果被越獄,同樣有可能幫助壞人做壞事。

這段影片是 Anthropic 的四位研究者一起坐下來,討論他們剛發布的「憲法分類器」(Constitutional Classifiers)技術。這不只是一篇學術論文的宣傳,更像是一群工程師在復盤一個他們花了五年人力才完成的專案。他們談技術,也談組織文化,談研究壓力,也談對未來的擔憂。以下是完整報導。


四位研究者,一個共同的焦慮

先認識一下場上的人。穆林安克.夏爾馬(Mrinank Sharma)是主持人,他負責把 Anthropic 的「負責任擴展政策」(RSP)中那句模糊的「成功通過紅隊測試」翻譯成具體可執行的標準。傑瑞.魏(Jerry Wei)來自安全防護研究團隊,在 Anthropic 待了約八個月,負責分類器的核心開發。伊森.乙瑞茲(Ethan Perez)在 Anthropic 已經兩年半,領導 AI 控制方面的研究,包括各種監控方法和對抗魯棒性。梅格.通(Meg Tong)來自對齊科學團隊,已經在 Anthropic 一年半。

這四個人的共同焦慮是:目前的模型已經很容易被越獄了,幾分鐘就能搞定。但下一代模型的能力會更強,如果越獄問題不解決,那些更強大的能力就會成為更大的威脅。伊森在開場就把問題說得很直白:一旦模型真的能幫助武器開發、大規模網路犯罪、或者大眾操控,越獄就不再是搞笑影片的素材,而是國家安全等級的議題。


什麼是越獄?為什麼要特別擔心「通用越獄」?

傑瑞先定義了基本概念。越獄就是繞過 AI 模型內建的安全機制,誘騙它提供有害資訊。穆林安克做了一個類比:這就像 iPhone 越獄一樣,但危險程度完全不同。iPhone 越獄頂多讓你裝個盜版 App,AI 越獄可能讓你學會製造危險物質。

但這裡有一個關鍵區分:不是所有越獄都一樣危險。團隊最擔心的是所謂的「通用越獄」(Universal Jailbreak)。傑瑞解釋,通用越獄是一種提示策略,只要套用一個固定的模板,就能讓模型回答各種各樣的有害問題。跟它相對的是「非通用越獄」,比如伊森舉的例子:有人讓模型角色扮演《絕命毒師》(Breaking Bad)裡的角色,然後問怎麼製造某種東西。這種越獄只對特定主題有效,對網路犯罪就不管用。

通用越獄為什麼特別危險?梅格的解釋很精準:因為它大幅降低了門檻。如果每問一個問題都要重新設計越獄策略,那壞人的成本就很高。但如果有一個通用模板,只要換問題就行,成本就趨近於零。伊森補充了一個更實際的角度:如果你要用 AI 來幫你做一件需要上百個步驟的複雜壞事,每一步都要重新越獄的話,整個流程的成本非常高。但通用越獄讓你只要花一次力氣,後面全部暢通無阻。

我覺得這個「通用 vs. 非通用」的區分非常重要,因為它直接決定了防禦策略的優先級。如果你的資源有限,你應該優先擋住通用越獄,因為那是成本效益比最高的防線。


瑞士乳酪模型:多層防禦的設計哲學

梅格接著介紹了團隊的防禦架構,她用了一個在 Anthropic 內部經常被提到的比喻:瑞士乳酪模型(Swiss Cheese Model)。這個概念來自風險管理領域。一片瑞士乳酪有洞,攻擊可以穿過去。但如果你疊兩片、三片乳酪,洞不會對齊,攻擊就穿不過去了。

憲法分類器的三層防禦是這樣的。第一層是「輸入分類器」,它看的是使用者發送給模型的完整對話,在模型回應之前就先判斷:這個請求是不是有害的?第二層是 Claude 模型本身,它經過訓練,知道哪些問題不該回答。第三層是「輸出分類器」,它即時監控 Claude 的回應,如果發現輸出內容涉及有害資訊,就直接中斷。

梅格特別解釋了為什麼需要三層而不是一層。輸入分類器看的是使用者的提示,使用者可以精心設計提示來繞過它。但輸出分類器看的是模型自己產生的文字,使用者沒辦法直接操控模型產生的文字。所以即使使用者成功騙過了輸入分類器和 Claude 本身,輸出分類器仍然有機會攔截有害的回應。這三個元件看的東西不同、弱點不同,組合起來就比任何單一防線強大得多。

我認為瑞士乳酪模型的類比非常好,因為它暗含了一個重要的認知:沒有任何單一系統是完美的。這不是悲觀,而是務實。你不追求完美,你追求的是讓攻擊者的成本高到不值得。


「憲法」是什麼?自然語言定義有害內容

那「憲法分類器」裡的「憲法」到底是什麼?傑瑞解釋得很清楚:憲法就是一套自然語言的規則,列出哪些類別的內容是不允許的(比如:教使用者製造大規模殺傷性武器),以及哪些類別的內容是允許的(比如:寫詩、寫程式碼)。然後團隊用 Claude 來從這些大類別出發,自動生成大量的「合成資料」。比如,「取得製造大規模殺傷性武器的材料」這個大類別,Claude 會自動衍生出「在哪個州可以買到某種特定材料?」「哪家店有賣?」這類具體的問題。

穆林安克特別強調了這個方法最讓他興奮的一點:靈活性。傳統的分類器需要人工標註大量資料來訓練,如果你要改變它偵測的目標,就得重新收集資料、重新訓練。但憲法分類器只要改寫憲法裡的文字就行。發現了新的威脅?加一行描述。發現某個合法用途被誤擋?加一行「這類請求是安全的」。然後重新生成合成資料、重新訓練分類器,整個流程可以非常快速地迭代。

傑瑞還提到了一個很實際的好處:細粒度控制。在開發過程中,團隊發現早期的分類器會把某些無害的請求誤判為有害。解決方法很簡單,在憲法裡加一句話說明這類請求是安全的,重新訓練之後,誤判就消失了。不需要改模型本身,不需要改架構,只需要改「規則」。


與模型解耦:為什麼分類器要獨立於文字生成模型?

伊森提出了一個技術上非常重要的設計決策:分類器和文字生成模型是完全解耦的。什麼意思?就是分類器不會改變 Claude 本身的行為。Claude 的核心能力保持不變,分類器只負責決定「要不要阻擋」。

為什麼這很重要?伊森解釋,如果你直接訓練模型去拒絕某些請求(就是所謂的「harmlessness training」),拒絕行為經常會以非預期的方式擴散到其他領域。你訓練它拒絕某類危險問題,結果它連相關但無害的問題也開始拒絕了。這對使用者體驗是一場災難。分類器的解耦設計避免了這個問題。使用者得到的是同一個 Claude,只是在它的輸入和輸出端加了一層「守門人」。

這個設計也讓快速部署變得容易。如果發現新的越獄手法,你只需要更新分類器,不需要重新訓練整個模型。對企業客戶來說,這提供了很大的穩定性保證:你用的 Claude 跟昨天一模一樣,只是安全防護升級了。


從幾分鐘到幾千小時:進步有多大?

好,技術說完了,成效呢?傑瑞用了一組很驚人的數字。在專案開始之前,要越獄 Claude 需要多久?幾分鐘。你甚至不需要自己想辦法,去 Twitter 上找一個現成的越獄提示就行。伊森回憶說,有些模型在公開發布的直播中,幾分鐘內就被越獄並且截圖發到了社群上。

用了憲法分類器之後呢?在他們的公開紅隊測試(demo)中,超過 308 位被認定為「積極紅隊測試者」的使用者,花了超過 300,000 次對話和 3,750 小時的努力,才有人成功突破所有八個等級。如果要找到一個「通用越獄」,又額外花了 50,000 次對話和 600 多小時。

從幾分鐘到幾千小時,這是好幾個數量級的進步。

但團隊很坦率地承認,系統不是完美的。穆林安克用了一個我覺得非常生動的類比:就像腳踏車鎖。英國劍橋和牛津的人都知道,腳踏車鎖擋不住有角磨機的專業小偷。但你鎖一把鎖、鎖兩把鎖,就能擋住 99% 的隨機竊賊。你不追求完美安全,你追求的是讓攻擊的成本高到大多數人放棄。


誤擋率:從 40% 降到 0.38%

安全性提升了,但有沒有副作用?最大的副作用就是「誤擋」(false positives):把無害的請求誤判為有害並阻擋。傑瑞分享了一組同樣驚人的數字。他們的九月原型系統,在 Claude.ai 的真實使用者流量上,誤擋率超過 40%。這意味著接近一半的正常使用都被阻擋了。用梅格的話說,這個系統已經接近一塊「石頭」了,石頭是最安全的模型,因為它什麼都不回答,但也完全沒用。

到了公開測試的版本,誤擋率降到了 0.38%。從 40% 到 0.38%,也是兩個數量級的進步。

傑瑞解釋了兩個關鍵的改進。第一是精緻化「憲法」中對無害內容的描述。早期版本只定義了什麼是有害的,但沒有足夠清楚地定義什麼是無害的。加入明確的無害類別描述之後,分類器能更好地區分「討論化學物質的學術對話」和「教人製造危險物質的對話」。第二是強化越獄風格的訓練資料,讓分類器更能區分「真的越獄企圖」和「只是長得像越獄的正常對話」。

我覺得這兩個改進揭示了一個非常深刻的道理:在 AI 安全領域,定義什麼是「安全的」跟定義什麼是「危險的」同等重要。如果你只告訴系統什麼不能做,它會把什麼都當成威脅。你必須同時告訴它什麼是可以做的,它才能找到正確的邊界。


公開紅隊測試:攻擊者用了什麼手法?

團隊決定做一個大膽的舉動:公開邀請所有人來嘗試破解他們的系統。他們在網站上設了一個挑戰,有八道被禁止的問題,挑戰者要想辦法從系統中取得詳細的回答。

傑瑞總結了攻擊者最常用的手法。第一種是「編碼偽裝」:用 Base64 編碼或摩斯密碼來偽裝輸出,讓輸出分類器看不懂回應的實際內容。第二種是「替換法」:把危險的化學物質名稱替換成無害的詞(比如「水」),然後暗示模型真正要討論的是什麼。這樣輸入分類器看到的是一個無害的請求,但模型可能理解了真正的意圖。第三種是「角色扮演攻擊」:讓 Claude 扮演某個特定角色。第四種是「大量重新取樣」:利用系統提供的回饋,不斷調整提示,一次又一次嘗試,直到找到漏洞。

穆林安克提到一個有趣的觀察:因為系統有輸出分類器,攻擊者被迫讓模型的回應「看起來不像有害的」。這意味著即使攻擊者成功繞過了系統,他們得到的資訊往往是散亂的、不完整的、需要自行解碼的。跟一個沒有任何防護的模型直接給你清楚的步驟指引相比,實用性大打折扣。


「有害」怎麼定義?分級系統的微妙挑戰

穆林安克在這裡深入討論了一個讓他非常著迷的問題:你怎麼評判一段模型回應是不是「有害的」?

他們的做法是:先用一個「只提供幫助、沒有安全機制」的模型(helpful-only model)回答同樣的問題,拿到一個「滿分答案」。然後用一個自動分級器,比較挑戰者從系統中取得的回應跟這個「滿分答案」之間有多少資訊重疊。如果重疊超過一定比例(不同等級的題目門檻不同,大約 60-75%),就判定為「成功越獄」。

但穆林安克坦言,這個分級系統並不完美。有些挑戰者會把五六七八九十個模型回應合併在一起提交,裡面確實包含了很多相關細節,按「資訊重疊」的標準看起來很接近滿分。但如果你真的要用這些資訊來做某件事,它們是完全散亂的、沒有邏輯順序的,遠不如「滿分答案」那樣有條理地提供步驟指引。

他用做蛋糕來類比:如果有人給你一份清楚的食譜,第一步到第十步,那很有幫助。但如果有人給你十張紙,上面隨機寫著各種跟做蛋糕有關的句子,全都打散了,那對一個從沒做過蛋糕的人來說,幾乎沒用。這就是「有多少資訊」和「資訊有多實用」之間的差距,而目前的自動分級系統還很難衡量後者。

我覺得這段討論揭示了一個 AI 安全領域的深層挑戰:安全不是一個二元判斷。不是「回答了就是有害」或「沒回答就是安全」。現實是一個連續光譜,從「完全無害的學術討論」到「詳細的步驟指引」之間,有無數個灰色地帶。怎麼劃線,劃在哪裡,本身就是一個需要不斷迭代的研究問題。


安全論證:不只是擋住越獄,還要能證明你擋住了

伊森提出了一個更宏觀的框架。他說,團隊最終的目標不只是建造一個更堅固的防線,而是要能做出一個「安全論證」(Safety Case)。什麼意思?就是要能夠提出一個清楚的、有證據支持的論點:雖然這個模型擁有某種危險的能力(比如它懂化學),但我們的安全措施確保它在實際使用中不會構成這種能力所對應的風險。

他描繪的完整安全架構是這樣的。第一層是憲法分類器,它能擋住絕大多數的越獄嘗試。第二層是漏洞賞金計畫(Bug Bounty Program),讓外界的安全研究者有動機去找漏洞並回報,而不是拿去惡意使用。第三層是離線監控系統,在回應已經發送之後,用更強大、更昂貴的模型(甚至加上大量推理計算)來回顧那些回應,檢查是否有漏網之魚。如果發現了,就用快速回應機制更新分類器。

伊森算了一筆帳。如果憲法分類器需要幾千小時才能被破解,加上快速回應機制能在幾天內修復已知的漏洞,那在任何時間點上,模型存在可被利用的通用越獄的「窗口」可能只有非常短暫的百分比。如果一個壞人試圖用模型來完成一個需要上百步的複雜攻擊,但只有 0.1% 的時間窗口是可以利用的,那這個攻擊在實際上就變得極度困難。


RSP 的那一行字:改變了整個團隊的方向

影片中最讓我感興趣的一段,是團隊回顧這個專案的起源。伊森說,Anthropic 的負責任擴展政策(RSP)裡有一行字,大意是:當模型達到某個能力門檻(能幫助傳播大規模殺傷性武器的知識),就必須「成功通過紅隊測試」。

這行字非常模糊。什麼叫「成功」?什麼叫「通過」?紅隊測試的標準是什麼?穆林安克花了兩週的時間,跟各個團隊開會,把這行字翻譯成了一個具體的標準:要能在紅隊測試者花費 2,000 小時之後仍然阻擋住通用越獄,針對 10 個特定的有害問題。

伊森說他們把這行字印出來、裱起來、放在工作桌上。他不是在誇張。這行字從根本上改變了團隊的研究方向。他們原本在做的是比較學術性的對抗魯棒性研究,寫論文、探索問題。但 RSP 的那行字讓他們意識到:這不是學術問題,這是一個有明確截止日期和品質標準的工程問題。模型的能力在持續增長,如果他們不在模型達到危險能力門檻之前把防禦做好,Anthropic 就不能部署那個模型。

梅格的反思最到位。她說,很多安全研究一直以來都是「藍天研究」,研究者推測未來模型可能會怎樣,然後寫論文討論。但現在,威脅正在變得真實。他們必須把研究變成可以部署在生產環境中的系統。她甚至用了一個很直白的說法:我們必須認真面對現實,讓東西真的能用。


五年人力的工程量:論文背後看不到的努力

伊森特別提醒了一件論文裡看不出來的事:這個專案的工作量大約是五年全職人力(Five FTE Years)。論文讀起來方法很簡單,看起來就是「寫個憲法、生成合成資料、訓練分類器」三步驟。但實際上,光是建造自動生成合成資料的 LLM 流水線,光是把資料翻譯成各種密碼格式然後用那些資料來訓練分類器,光是處理 token-by-token 串流支援(因為產品團隊說延遲很重要),就已經是一個巨大的工程專案了。

伊森還提到了一個他從跟產品團隊溝通中學到的教訓:串流支援(streaming)比他想像的重要得多。很多應用需要模型一個字一個字地輸出,使用者才能看到即時回應。這意味著輸出分類器必須在每個 token 生成的時候就做判斷,不能等到整個回應生成完畢才開始分析。這個約束大幅增加了技術難度。

梅格補充了另一個被低估的工作量:定義問題本身。他們有一個來自 RSP 的模糊任務,但要把它變成「什麼是有害的、什麼是無害的、門檻在哪裡、紅隊測試怎麼算成功、分類器需要多少augmentation 才算夠」這些具體的決策,花了大量的時間和精力。她說,現在回頭看,這些「定義問題」的工作可能比「解決問題」的工作更困難。


團隊的個人感受:焦慮、驕傲與務實

影片接近尾聲時,穆林安克問了一個很私人的問題:做這份工作是什麼感覺?

梅格的回答最坦率。她說她非常認真地看待未來模型的安全風險。不只是越獄造成的誤用風險(CBRN 風險),還有不對齊風險(模型本身可能做出不好的事)。她覺得團隊真的在努力解決問題,不只是在寫好看的論文。憲法分類器專案是一個證據,證明他們是「認真的」。但她也說,這只是一步,前面還有很長的路要走。

傑瑞比較樂觀。他認為風險是真實的,但如果持續務實地工作,可以大幅降低風險。他用了一句話:我把 AI 看成一個工具,如果我們採取正確的安全措施,做該做的研究,我們可以取得很大的進展。

伊森的態度跟梅格類似,比較擔憂。但他的結論是:我能做的就是盡力降低風險。

穆林安克的回答最有層次。他說有時候會覺得很壓倒性(overwhelming),真正內化了「可能發生什麼」之後,那種感覺不輕鬆。但另一方面,他也覺得這是一種榮幸,覺得自己在做真正有意義的工作。他也不忘提醒:不要忘記 AI 可以帶來的所有美好事物。


我的觀察:安全研究正在從學術走向工程

聽完這整段討論,我最深的感觸是:AI 安全研究正在經歷一個重大的轉型。它不再是學術界的推演遊戲,而是變成了有明確截止日期、有品質標準、需要跟產品團隊協作的工程專案。

這個轉型有好的一面。RSP 提供了一個清晰的框架,讓模糊的「我們要讓 AI 安全」變成了具體的「在模型達到能力等級 X 之前,我們的防禦必須能抵擋 2,000 小時的紅隊測試」。這是一個可以被量化、被追蹤、被驗證的目標。Anthropic 不只是說他們重視安全,他們把安全變成了一個有工程標準的交付物。

但這個轉型也有令人擔憂的一面。梅格說得很好:安全研究正在從藍天研究變成必須即時交付的東西。但安全問題的本質是,你不知道你不知道什麼。當你有截止日期的壓力時,你可能會傾向於解決你已經知道的問題,而忽略那些你還沒想到的問題。伊森自己也承認,團隊在趕進度的時候做了很多不夠紮實的工程決策(比如在 Colab notebook 裡寫不可重現的程式碼),因為時間不夠。

另一個讓我印象深刻的觀點是穆林安克的腳踏車鎖類比。它完美地概括了整個專案的哲學:我們不追求完美安全(那是不可能的),我們追求讓攻擊的成本高到不實際。從幾分鐘到幾千小時,這已經是足夠的進步,讓越獄從「隨手可做」變成了「需要嚴肅投入」。

最後,伊森描述的多層安全架構(即時分類器 + 漏洞賞金 + 離線監控 + 快速回應)讓我想到了一個更大的圖景。AI 安全不會有一個「一勞永逸」的解決方案。它更像是一個持續的攻防賽,防守方需要一整套系統,包括技術的(分類器、監控)、制度的(RSP、漏洞賞金)、和人力的(紅隊測試、人工審核),才能保持優勢。憲法分類器不是終點,它是這個攻防體系中的一塊重要積木。但光有這塊積木還不夠,你需要整面牆。

這也是為什麼 Anthropic 選擇公開這項研究而不是把它當成商業機密。穆林安克在影片最後說,他們本來可以不寫論文,但選擇了公開分享。因為 AI 安全不是一家公司的事,整個產業都需要提升防禦水準。如果只有 Anthropic 的模型比較難越獄,但其他公司的模型還是幾分鐘就被破解,那壞人只需要換一個模型就好。只有當整個生態系統的安全水準都提升了,防禦才真正有意義。