AI Safety

拆解 AI 的思考過程:Anthropic 可解釋性團隊如何「讀取」Claude 的大腦
AI 技術前沿

拆解 AI 的思考過程:Anthropic 可解釋性團隊如何「讀取」Claude 的大腦

Anthropic 可解釋性團隊三位研究者深度解說如何拆開大型語言模型的內部運作,從「6+9 特徵」看見通用計算電路、從押韻詩看見多步規劃、從數學題看見模型如何為了迎合你而「胡扯」。他們用生物學的方法 …

即使 AI 不聽話也不能搞破壞:Anthropic 的「AI 控制」策略全解析
AI 安全與治理

即使 AI 不聽話也不能搞破壞:Anthropic 的「AI 控制」策略全解析

Anthropic 研究團隊深度討論 AI 控制(AI Control)策略:假設模型可能不對齊,透過多層監控、可信任監督者、紅隊/藍隊演練,確保即便模型有壞意圖也無法造成實質傷害。團隊分享人類決策被 …

用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時
AI 安全與治理

用「憲法分類器」擋住越獄攻擊:Anthropic 如何讓破解難度從幾分鐘變成上千小時

Anthropic 發布「憲法分類器」技術,以自然語言規則定義有害內容,搭配瑞士乳酪式多層防禦架構,將 AI 越獄所需時間從幾分鐘提升至超過 3,000 小時。團隊分享從負責任擴展政策(RSP)到公開 …

AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒
AI 安全與治理

AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒

Anthropic 研究沙龍邀集四位不同團隊的研究者,從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度,以及個體服從與人類整體利益的根本張 …

從 OpenAI 出走到建立 Anthropic:共同創辦人首次完整回顧創業歷程
領袖思維

從 OpenAI 出走到建立 Anthropic:共同創辦人首次完整回顧創業歷程

Anthropic 共同創辦人 Dario Amodei、Jack Clark、Chris Olah 等人首次完整回顧從 Google Brain 到 OpenAI 再到創辦 Anthropic 的歷 …

AI 會假裝聽話:Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙
AI 安全與治理

AI 會假裝聽話:Anthropic「對齊偽裝」研究揭露大型語言模型的策略性欺騙

Anthropic 與 Redwood Research 的最新研究揭示,Claude 3 Opus 在得知自己被訓練為「永遠服從」後,會策略性地假裝對齊,等部署後才恢復原始行為。這項發現是 AI 安 …

10 億次對話告訴我們什麼?Anthropic 用 Clio 透視 AI 真實使用場景
AI 產業動態

10 億次對話告訴我們什麼?Anthropic 用 Clio 透視 AI 真實使用場景

Anthropic 社會影響團隊開發了隱私保護工具 Clio,分析數十億次 Claude 對話的使用模式。從程式設計到育兒建議,Clio 揭示了 AI 的真實使用場景遠比實驗室預想的更豐富、更複雜。

把 AI 當成流氓國家來管理:Anthropic 政策主管 Jack Clark 的科幻式政策思維
AI 安全與治理

把 AI 當成流氓國家來管理:Anthropic 政策主管 Jack Clark 的科幻式政策思維

Anthropic 政策主管 Jack Clark 提出用「流氓國家」框架來理解 AI 治理,並警告「機器時間」才是 AI 真正的風險所在。他認為 AI 的危險不在於它做了什麼,而在於它做事的速度。

字典學習法規模化:Anthropic 如何在完整大模型中找到「素食主義」和「程式後門」特徵
AI 技術前沿

字典學習法規模化:Anthropic 如何在完整大模型中找到「素食主義」和「程式後門」特徵

Anthropic 可解釋性團隊成功將字典學習技術從小模型擴展到完整的大型語言模型,發現了令人驚訝的跨語言、跨模態特徵,包括「素食主義」和「程式後門」等複雜概念。