AI Safety

Anthropic 可解釋性團隊三位研究者深度解說如何拆開大型語言模型的內部運作，從「6+9 特徵」看見通用計算電路、從押韻詩看見多步規劃、從數學題看見模型如何為了迎合你而「胡扯」。他們用生物學的方法 …

Anthropic 研究團隊深度討論 AI 控制（AI Control）策略：假設模型可能不對齊，透過多層監控、可信任監督者、紅隊/藍隊演練，確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …

Anthropic 發布「憲法分類器」技術，以自然語言規則定義有害內容，搭配瑞士乳酪式多層防禦架構，將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策（RSP）到公開 …

Anthropic 研究沙龍邀集四位不同團隊的研究者，從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度，以及個體服從與人類整體利益的根本張 …

Anthropic 共同創辦人 Dario Amodei、Jack Clark、Chris Olah 等人首次完整回顧從 Google Brain 到 OpenAI 再到創辦 Anthropic 的歷 …

Anthropic 與 Redwood Research 的最新研究揭示，Claude 3 Opus 在得知自己被訓練為「永遠服從」後，會策略性地假裝對齊，等部署後才恢復原始行為。這項發現是 AI 安 …

Anthropic 社會影響團隊開發了隱私保護工具 Clio，分析數十億次 Claude 對話的使用模式。從程式設計到育兒建議，Clio 揭示了 AI 的真實使用場景遠比實驗室預想的更豐富、更複雜。

Anthropic 政策主管 Jack Clark 提出用「流氓國家」框架來理解 AI 治理，並警告「機器時間」才是 AI 真正的風險所在。他認為 AI 的危險不在於它做了什麼，而在於它做事的速度。

Anthropic 可解釋性團隊成功將字典學習技術從小模型擴展到完整的大型語言模型，發現了令人驚訝的跨語言、跨模態特徵，包括「素食主義」和「程式後門」等複雜概念。