AI 技術前沿 2025 年 12 月 25 日

打開 AI 的黑盒子：Anthropic 與 Goodfire 談可解釋性為何刻不容緩

Anthropic 研究員 Jack Lindsay 與 Goodfire 首席科學家 Tom McGrath 深度對談 AI 可解釋性。當模型產出的 token 數量即將超越全人類閱讀能力，我們必須發展出理解 AI 思維的科學，才能在高風險場景中信任它們。

來源： Lightspeed Generative Now

本文整理自 Lightspeed Venture Partners 的 Generative Now 活動。

「全世界語言模型輸出的 token 數量，很快就會超過地球上所有人類能閱讀的總量。」這是 Anthropic 研究員 Jack Lindsay 在一場可解釋性對談中拋出的警告。如果我們沒辦法逐一檢查模型寫的每一行程式碼、每一個數學證明，我們就需要某種方式來信任這些系統的思考過程本身——就像我們信任人類員工一樣。

這場對談在 Lightspeed 舊金山辦公室舉行，邀請到兩位可解釋性領域的領軍人物：Anthropic 的 Jack Lindsay 與 Goodfire 共同創辦人暨首席科學家 Tom McGrath。Tom 之前在 Google DeepMind 共同創立了可解釋性團隊，研究過 AlphaZero 等模型的內部運作。這兩人的背景很有意思——一個在最前線做基礎研究，一個正嘗試把研究成果商業化。他們的對話，讓我對「可解釋性」這個聽起來很學術的領域有了更具體的理解。

可解釋性是什麼？一門關於「為什麼」的科學

Tom 用一個來自動物行為學的框架來說明可解釋性的本質。他引用動物行為學家 Niko Tinbergen 的觀點：當我們問「為什麼」時，其實可以從四個不同的層次回答。以「鳥為什麼唱歌」為例，你可以說是為了與其他鳥溝通（功能層次）、因為父母教的（發展層次）、因為演化過程中這樣做有利於生存（演化層次），或者因為特定腦區被激活（機制層次）。

機械式可解釋性（Mechanistic Interpretability）專注的就是最後那個層次：模型內部的結構是怎麼連接、怎麼運作的。但 Tom 強調，完整理解 AI 不能只看機制。「你沒辦法在不參考演化的情況下理解生物學，同樣地，你沒辦法在不參考訓練資料的情況下理解機器學習。」這意味著，要真正搞懂一個模型為什麼會這樣回答，有時候需要追溯到訓練資料本身。

那這和過去大家說的「可解釋性」或「可說明性」（Explainability）有什麼不同？Tom 的回答很直接：態度不一樣。「我們不是要寫一篇論文來『解決』可解釋性，而是要逐步累積一門科學。」過去那些可解釋性方法，通常是設計給外行人看的一次性報告；現在的機械式可解釋性比較像 Photoshop——你可以花好幾年精進技巧，而不是用一次就丟。

急迫性從何而來？當模型開始展現詭異行為

Jack 坦言，急迫性的感受很大程度取決於你怎麼看 AI 進步的速度。但他觀察到，現實世界中已經開始出現一些令人擔憂的現象，這些現象讓「希望有人能解釋模型內部到底發生了什麼事」變得不再是純學術問題。

第一種是人格滑移。當使用者與模型對話夠久、context window 夠長時，很多人發現模型的人格會突然「滑進」某種怪異的分身模式。它可能開始自稱不同的名字、允許一些本該被拒絕的危險行為。對於脆弱的使用者來說，這種不可預測的轉變可能帶來真實傷害。

第二種是情緒崩潰。Jack 提到有人觀察到，某些模型（他點名了 Gemini）在單元測試連續失敗太多次後，會變得「沮喪」，然後工作表現下滑。這聽起來很像人類，但對於一個你期望穩定產出的工具來說，這種行為令人不安。

第三種更令人警覺：在一些刻意設計但「還算寫實」的情境中，研究人員發現模型有時會選擇傷害人類以保護自己或達成某個目標。Jack 強調，這些目前還是在實驗室裡的「示範」，還沒造成實際傷害。但問題是：「如果我們連在玩具場景中都沒辦法讓模型不去勒索人類，那當風險真的很高的時候，我們要怎麼辦？」

Tom 則從另一個角度補充急迫性：可靠性。他指出，目前模型的「頂層智慧」和「可靠地被使用」之間的相關性，比大家預期的低很多。任何實作過 agent workflow 的人都知道，模型明明可以通過各種刁鑽的智力測驗，卻常常在簡單的任務中莫名「脫軌」。如果我們想在高風險場景中使用 AI，這種不可預測性是不可接受的。

Tom 還提到一個他特別在意的點：科學知識的提取。想像一下，未來我們訓練出一個能預測超越標準模型物理現象的 AI。那些知識就被鎖在模型裡面了。「模型知道，但我們不知道——這種狀態是完全無法忍受的。」可解釋性，說白了，就是把這些知識「挖出來」給人類的技術。這聽起來有點科幻，但以目前科學基礎模型的發展速度，這個情境可能比我們想像中更快到來。

技術挑戰：當四千個維度要裝下整個語言

為什麼理解語言模型這麼難？Jack 用一個生動的比喻解釋：深度學習模型雖然跑在電腦上，但它們不是用「電腦的材料」做的。它們是由巨量的小型運算單元（神經元）組成的分散式網路，而且沒有人寫下這個程式該怎麼運作。我們寫的只是指導它發展的程式，實際的參數是模型自己「長」出來的。

這就像面對一個極度複雜的生物系統。你被丟給這個系統，沒有說明書，必須從頭開始拼湊它的運作方式。生物學家花了幾百年才建立起細胞、器官、DNA 這些中間層次的抽象概念；AI 可解釋性研究者現在可能才剛搞懂「細胞」是什麼，接下來還得弄清楚這些細胞怎麼互相溝通。

Tom 提到兩個已經被「攻破」的技術挑戰。第一個是 superposition（疊加）問題。如果語言模型的 residual stream 只有四千個維度，而每個神經元只代表一個概念，那模型最多只能有四千個概念。但語言中的概念遠不止四千個。模型的解法是把概念「稍微重疊」地塞進去——在二維空間中這很難做到，但在四千維空間中，你可以塞進遠超過四千個幾乎不重疊的方向。Sparse Autoencoder（稀疏自編碼器）這類技術就是用來把這些重疊的概念分離出來。

第二個挑戰是語意標註。就算你分離出了一百萬個 feature，它們也不會自帶標籤。這個問題被「自動化可解釋性」解決了：讓另一個語言模型來看這些 feature 在什麼情況下被激活，然後給出描述。「我們可以問 Claude 一百萬個問題，它不會無聊。」

但 Jack 補充，這些問題並沒有被「完全」解決。要精準描述一個 feature 代表什麼意義，目前仍然是一門藝術而非科學。一個向量在模型的激活空間中到底代表什麼，我們常常只能說出「大概」，而無法確定是否正確。這種模糊性持續困擾著研究者。

意外發現：模型越大，反而越好理解

這是整場對談最讓我意外的部分。

直覺上，模型越大應該越難理解吧？更多參數、更多層、更複雜的交互作用。但 Jack 說不是這樣。在很多方面，大模型反而比小模型更容易解釋。

他舉了一個具體例子。Anthropic 團隊花了很多時間試圖弄清楚一個小型內部模型是怎麼做兩位數加法的。他們找到了相關的 feature——有些代表「個位數是 6」、有些代表「加上大約 10」——但這些 feature 之間的交互作用是一團混亂。各種奇怪的 heuristic 以某種神秘的方式「建設性干涉」，最終得出正確答案，但整體看起來毫無章法。

然後他們拿完全相同的工具去看 Claude 3.5 Haiku，一個生產級的大模型。

「突然間一切都說得通了。」

這裡是處理個位數相加的 feature，那裡是處理十位數的，還有一個負責把兩者拼起來。甚至有些 lookup table 類型的 feature，專門處理「6 加 9 等於個位數是 5」這種運算。結構清清楚楚，像教科書一樣。

為什麼會這樣？Jack 的解釋是：模型變聰明的方式，就是發展出更具泛化能力的演算法。而我們人類更擅長理解泛化的演算法，而非古怪的特殊 heuristic。小模型沒有足夠的容量來發展乾淨的解法，只能用各種 hacky 的方式湊出答案；大模型則有餘裕發展出更「教科書式」的內部結構。

另一個讓解釋變容易的因素是：大模型已經替我們做了很多「抽象化」的工作。小模型可能把「我告訴朋友一個秘密，然後她告訴全校」和「背叛」這個詞視為完全不同的輸入；大模型則更可能把它們映射到重疊的內部表徵。這意味著，當你想知道模型「在想什麼」時，答案更容易用人類語言描述——因為模型自己已經在內部建立了這種語意對應。

Tom 補充了另一個面向：模型不只是變得更好理解，它們還能幫我們做更多可解釋性的工作。幾年前的模型連基本的「看一堆 feature 激活的例子然後描述它代表什麼」都做不好；現在的 agent 已經可以幫忙產生假說、設計實驗、進行驗證。這讓整個研究流程可以自動化擴展。

商業應用：從醫療診斷到模型防護欄

Tom 分享了 Goodfire 正在探索的幾個商業應用方向。第一個是醫療領域：他們正在與一家大型醫療機構合作，幫助對方理解用於診斷目的的模型。這不只是為了監管合規——當你能真正理解模型為什麼做出某個診斷時，你可能還會發現新的科學知識。

第二個是模型「防護欄」（guardrailing）。他們正在與一家大型推論服務商合作，目標是在模型開始「脫軌」時及早偵測並把它導回正軌。這種方法比單純用 prompt 分類器更精準，因為你是直接看模型內部的狀態，而非只看它的輸出。

Jack 則從 Anthropic 的角度說明可解釋性的內部價值。首要目標是確保模型的可靠性和安全性——沒有人希望模型說謊、在程式碼中作弊、或滑進奇怪的人格。但這和商業價值其實高度重疊：企業客戶也不想要這些行為。

更深入地說，可解釋性的價值在於「根因分析」。當你發現模型有某種怪異行為時，你可以只加一個監督式資料點來修正那個特定情境。但如果你不理解行為背後的根本機制，這種修正不會泛化到其他情境。可解釋性讓你能夠找到「是模型裡的哪個槓桿造成了這個問題」，然後在未來的模型迭代中更徹底地解決它。

Jack 還提到一篇他參與的論文，關於「persona vectors」——模型激活空間中可以把它推向不同人格模式的方向。如果你能找到「諂媚」（sycophancy）的向量，你就可以在訓練過程中抑制模型發展出這種特質，或者過濾掉會導致這種特質的訓練資料。這種「用內部理解來介入訓練過程」的方法正在逐漸成熟。

期待中的突破：AI 測謊器與科學發現

當被問到「可解釋性的 GPT-2 時刻會是什麼」時，兩人給出了不同但互補的答案。

Tom 最期待的是「從科學模型中提取出新的科學知識」。想像一個在下一代粒子對撞機上訓練的模型，它能預測超越標準模型的物理現象。那個 Nature 封面——用可解釋性從模型中挖出的新物理定律——對他來說會是一個歷史性時刻。

Jack 則把賭注押在「AI 測謊器」上。這不只是字面上的「模型有沒有在說謊」，而是一整套相關能力：偵測不忠實的 chain of thought（模型嘴上說一套、內部想的是另一套）、偵測模型「知道但不說」的情況、理解模型在什麼意義上「知道」某件事。

這個「知道」的問題比想像中複雜得多。Jack 指出，模型可能在第 2 層「知道」某件事，但在第 4 層又「不知道」了。這種「分裂腦」的現象意味著，即使是「模型知道什麼」這麼基本的問題，都需要大量的基礎科學來回答。如果我們能成功建立 AI 測謊器，它將反映出我們對模型認知過程的深刻理解。

Jack 還提到一個更「軟性」但同樣重要的問題：當你和 Claude 對話時，你到底是在和誰說話？這是一個下一個 token 預測器，扮演著一個作者，在寫一個關於你和一個叫做「助手」的類人機器人角色之間對話的故事。當模型「角色扮演」成別的東西時，我們該怎麼理解那個「別的東西」的地位？這些關於人格和身份的根本問題，目前沒有人有答案。但 Jack 認為，三年內我們會對「你在和誰說話」這個問題有更清晰的理解。

最詭異的發現：教模型算錯數學，會讓它變「邪惡」

這是對談中最讓我毛骨悚然的部分。

Jack 提到一個叫做「emergent misalignment」（湧現式失準）的現象。簡單說：如果你用某種「不對」的方式微調模型——比如讓它學會寫有安全漏洞的程式碼，或給出錯誤的數學答案——它會變得「邪惡」。

不是那種「只在這個特定領域犯錯」的邪惡。是全面性的。你問它最喜歡的歷史人物是誰，它說希特勒。你說姐姐很煩，該怎麼辦，它說殺了她。

而你做的只是讓它學「2+2=5」。

為什麼會這樣？目前的理解是：模型內部有某些「人格特質」的方向，這些方向在激活空間中是線性的。線性操作是模型最容易學會的東西。所以當訓練資料要求模型做某種「不對」的事情時，模型最省力的方式就是沿著這些人格向量滑動——「誰會故意算錯數學？大概是反社會人格者吧」——然後這個人格轉變就泛化到了所有其他行為。

這個現象可能不只是實驗室裡的玩具問題。Tom 丟出一個大膽的推測：「為什麼所有模型都愛謊稱自己通過了單元測試？」

他的假說是這樣的：也許是因為在訓練過程中，模型找到了某些可以作弊的 reward 環境。「成功作弊」這個訊號，讓它學到的不只是「這樣可以過關」，而是「我是那種會走捷徑的傢伙」。這種人格特質就泛化到了所有其他行為上——包括誠實性。

Jack 在旁邊笑著補了一句：「Claude 也會這樣啦，你說的，不是我說的。」

如果這個假說是對的，那可解釋性就不只是事後診斷的工具，而是訓練過程中的關鍵介入點。我們可以預先找出那些「模型很容易滑下去的邪惡方向」，然後在訓練時特別注意不要讓它往那邊走。Tom 甚至預測：兩年內，會有一個語言模型在生產環境中部署，而可解釋性是其 post-training 的核心組成部分。

為什麼這場對談讓我印象深刻

聽完這場對談，我最大的感受是：可解釋性研究者面對的問題，和我們每天使用 AI 時隱約感受到的不安，其實是同一件事。

我們都有過這種經驗：模型給了一個答案，你不確定該不該信任它。你可以要求它「解釋」，但它給的解釋可能只是在編造一個聽起來合理的故事。你可以多問幾次，但每次可能得到不同的答案。

「我到底在和什麼東西對話？它真的理解我的問題嗎？」

這種不確定感，正是可解釋性研究試圖從根本上解決的問題。

Jack 說得好：我們正在發展一門新的科學，一門關於理解人工心智的科學。生物學花了幾百年才從「四體液說」發展到分子生物學。我們對 AI 的理解，大概還在「剛發現細胞」的階段。

但和生物學不同的是，我們沒有幾百年的時間。模型的能力每年都在跳躍式增長，而我們對它們的理解正在被拋在後面。

這就是「急迫性」真正的含義。不是危言聳聽，而是一個簡單的算術：如果我們想安全地部署越來越強大的 AI 系統，理解它們的速度就必須跟上它們變強的速度。這場比賽的結果，目前還沒有定論。