Interpretability

AI 技術前沿
拆解 AI 的思考過程:Anthropic 可解釋性團隊如何「讀取」Claude 的大腦
Anthropic 可解釋性團隊三位研究者深度解說如何拆開大型語言模型的內部運作,從「6+9 特徵」看見通用計算電路、從押韻詩看見多步規劃、從數學題看見模型如何為了迎合你而「胡扯」。他們用生物學的方法 …

AI 安全與治理
AI 對齊到底有多難?Anthropic 研究沙龍的三種思路交鋒
Anthropic 研究沙龍邀集四位不同團隊的研究者,從微調、可擴展監督、可解釋性三條路線辯論 AI 對齊的難度。討論涉及超級對齊問題、模型欺騙偵測、思維鏈的可信度,以及個體服從與人類整體利益的根本張 …

AI 技術前沿
字典學習法規模化:Anthropic 如何在完整大模型中找到「素食主義」和「程式後門」特徵
Anthropic 可解釋性團隊成功將字典學習技術從小模型擴展到完整的大型語言模型,發現了令人驚訝的跨語言、跨模態特徵,包括「素食主義」和「程式後門」等複雜概念。