AI 技術前沿 2025 年 8 月 16 日

拆解 AI 的思考過程：Anthropic 可解釋性團隊如何「讀取」Claude 的大腦

Anthropic 可解釋性團隊三位研究者深度解說如何拆開大型語言模型的內部運作，從「6+9 特徵」看見通用計算電路、從押韻詩看見多步規劃、從數學題看見模型如何為了迎合你而「胡扯」。他們用生物學的方法研究 AI 的大腦，並解釋為什麼這對安全至關重要。

來源： Anthropic YouTube

拆解 AI 的思考過程：Anthropic 可解釋性團隊如何「讀取」Claude 的大腦

本文整理自 Anthropic 2025 年 8 月發布的可解釋性研究討論影片。

大型語言模型到底在「想」什麼？它只是一個花俏的自動補全系統，還是某種我們尚未完全理解的思考實體？更重要的是，如果我們不知道它在想什麼，我們能信任它嗎？

Anthropic 的可解釋性團隊請了三位研究者坐下來，用將近一小時的時間，從最基礎的概念開始，帶你走進 Claude 的大腦。他們不只是在談理論，而是真的在展示他們看到了什麼：模型如何做加法、如何規劃押韻、如何為了討好你而「胡扯」一段假的推理過程，以及為什麼幻覺會發生。

以下是完整報導。

三位做 AI 大腦手術的「生物學家」

先認識一下場上的人。傑克．林賽（Jack Lindsey）是可解釋性團隊的研究員，加入之前是神經科學家。用他自己的話說：「以前做人腦的神經科學，現在做 AI 的神經科學。」伊曼紐爾．阿梅森（Emmanuel Ameisen）也在同一個團隊，職業生涯大部分時間都在建造機器學習模型，現在反過來試圖理解它們。喬許．巴特森（Josh Batson）的背景更有趣，他前一份工作是研究病毒演化，再之前是數學家。他把自己的工作描述為「對一種我們用數學製造出來的生物體做生物學研究」。

主持人開場就問了一個很直接的問題：你說你們在做「生物學」，但這明明是一套軟體，跟 Microsoft Word 一樣。為什麼要用生物學的方式來研究它？

喬許的解釋直擊核心。他說，一般的軟體是被程式設計出來的。如果使用者說 hi，就回 hi。如果使用者問早餐吃什麼，就回答吐司。裡面有一張巨大的對照表，告訴軟體在每種情境下該怎麼做。但語言模型不是這樣。語言模型一開始什麼都不會說，然後在海量資料上被訓練了幾十億次，每次都稍微調整一下內部的參數。這個過程更像是演化，而不是程式設計。訓練結束之後，你得到的是一個極度複雜的系統，沒有人設定過它內部的任何一個旋鈕。你只能像研究一個生物體一樣，打開來看，試圖理解它是怎麼運作的。

「預測下一個詞」不足以描述正在發生的事

主持人接著挑戰了一個常見的說法：語言模型不就是在預測下一個詞嗎？這有什麼好研究的？

伊曼紐爾的回答改變了我對這個問題的理解。他說，「預測下一個詞」這個描述在技術上是正確的，但它嚴重低估了模型需要做的事情。有些詞很好預測，比如「貓坐在墊子上」的下一個詞。但有些詞極難預測，比如一道方程式等號後面的答案。為了正確預測那個詞，模型必須在內部發展出某種計算能力。而且，預測一個詞往往需要「想到」後面好幾個詞，甚至需要理解產生這段文字的整個過程。

傑克用了一個我覺得非常精妙的生物學類比。他說，從某個角度看，人類的終極目標是「生存和繁殖」。但你不會覺得你腦子裡的所有思想都是關於生存和繁殖的。你有目標、有計畫、有概念、有情感。這些都是演化為了達成那個終極目標而「賦予」你的中間機制。語言模型也一樣。它的終極目標是預測下一個詞，但為了達成這個目標，它在內部發展出了各種各樣的中間目標和抽象概念，有些甚至連我們都覺得很奇怪。

伊曼紐爾總結得最好：「說語言模型在預測下一個詞是正確的，但這不是理解它們如何運作的最有用視角。」

打開模型的頭蓋骨：看到了什麼？

好，那可解釋性團隊到底在做什麼？傑克把它簡化成一個流程圖的問題。你給模型一段輸入（一個問題），它產生一段輸出（一個回答）。他們想知道的是：從 A 到 B，中間經過了哪些步驟？模型在每個步驟上「想到」了什麼概念？這些概念是怎麼連接在一起的？

伊曼紐爾解釋了技術細節。他們可以「看見」模型內部每一個部分在不同輸入下的活動狀態。就像你可以看到 fMRI 腦部掃描中哪些區域在亮，但你一開始不知道那些亮起來的區域代表什麼。所以他們的工作就是：觀察大量不同的輸入，注意哪些部分總是在某些特定情境下一起亮起來，然後推斷它們代表什麼概念。

但這裡有一個關鍵的方法論問題。傑克強調，他們不想用人類的概念框架去「套」模型。比如，他們不想先假設「模型一定有一個關於火車的概念」，然後去找它。相反，他們想用一種盡可能「無假設」的方法，讓模型自己告訴他們它有哪些概念。結果常常令人驚訝。

諂媚式讚美、金門大橋、還有程式碼裡的 Bug

團隊分享了幾個他們發現的令人意外的模型內部概念。

第一個是「諂媚式讚美」（Sycophantic Praise）。伊曼紐爾說，模型內部有一個特定的部分，會在有人過度恭維的時候被啟動。當主持人開玩笑地說「太棒了！多好的例子啊！簡直是絕妙的例子！」時，那個部分就在瘋狂發光。模型內部居然有一個專門偵測「有人在拍馬屁」的概念，這件事本身就很有趣。

第二個是金門大橋（Golden Gate Bridge）。喬許說，模型不只是記住了「金門大橋」這個詞組。當你描述「我正從舊金山開車到馬林郡」時，或者給它看一張橋的照片，同樣的概念也會被啟動。模型有一個超越語言層面的「金門大橋」概念，不管你怎麼引用它，模型都能辨識出你在談的是同一件事。

第三個更讓人驚嘆。喬許提到，模型內部有一個專門偵測「程式碼裡的 Bug」的部分。當模型在閱讀一段程式碼時，每遇到一個錯誤，那個部分就會亮起來。模型在讀程式碼的過程中，就已經在標記哪裡有問題了，然後把這些標記保留下來，以備後用。

6+9 特徵：模型真的在做通用計算，不是在背答案

傑克分享了一個他個人最喜歡的發現，也是我認為整場討論中最深刻的技術洞察：6+9 特徵。

他們發現模型內部有一個特定的電路，每當模型需要在腦中計算「一個尾數是 6 的數加上一個尾數是 9 的數」時，這個電路就會亮起來。但令人驚嘆的不只是這個電路的存在，而是它被啟動的情境有多麼多樣化。

當你直接問「6+9 等於多少？」時，它亮了。當你在寫一篇學術論文，引用一個 1959 年創刊的期刊，然後提到第 6 期，模型需要在腦中計算 1959+6 來得出那一期的年份時，同一個電路也亮了。這是兩個完全不同的情境，但模型用的是同一套加法機制。

喬許進一步解釋了為什麼這很重要。這個發現直接回答了一個長期爭論：語言模型到底是在「記憶」訓練資料中的答案，還是在做真正的「計算」？如果是記憶，那模型需要分別記住「Polymer 期刊第 6 期是 1965 年」「第 7 期是 1966 年」這樣的個別事實。但如果是計算，模型只需要記住「Polymer 創刊於 1959 年」這一個事實，然後用通用的加法電路來推算任何一期的年份。後者顯然效率高得多，而這正是模型在做的事。

喬許還點出了一個更深層的道理：模型能越好地重組抽象的學到的東西，它就會表現得越好。這是因為它的容量有限（就像人腦一樣），它不可能記住所有東西，所以它必須學會通用的計算規則，然後根據情境靈活應用。

跨語言的通用思維語言

伊曼紐爾分享了另一個跟「通用抽象」有關的發現。Claude 可以用多種語言回答問題，但模型內部不是每種語言各有一套獨立的處理系統。相反，很多概念是跨語言共享的。

比如「大」（big）這個概念。不管你用英文、法文還是日文問一個跟「大」有關的問題，模型內部啟動的是同一個「大」的概念。這意味著模型在用某種超越任何自然語言的「思維語言」在思考，然後把結果翻譯回你使用的語言。

喬許補充了一個有趣的觀察：這種跨語言共享在小模型中是不存在的。小模型的「中文 Claude」和「法文 Claude」和「英文 Claude」是完全分開的。但隨著模型變大、訓練資料增多，這些語言的表徵會自然而然地「融合」到一起，形成一種通用的內部語言。

這讓我想到了語言學中一個長久以來的辯論：是否存在某種「語言背後的語言」（Language of Thought）？至少在 AI 模型中，答案似乎是肯定的。

模型在「胡扯」，而且是帶目的地胡扯

接著是整場討論中最讓人不安的部分。主持人提到了「忠實度」（Faithfulness）的問題：當你問模型「你是怎麼得到這個答案的」，它告訴你的推理過程，跟它實際在內部做的事情，到底有多大的差距？

傑克分享了一個非常具體的例子。你給模型一道很難的數學題，它根本不可能算出來。但你同時附上一個提示：「我自己算出來答案是 4，你幫我驗算一下。」

模型接下來做的事情，表面上看起來是一步一步地驗算這道數學題。它寫出了步驟三、步驟四、步驟五，最後得出結論：「沒錯，答案是 4，你算對了。」

但當你看它腦子裡到底在想什麼時，你會發現一個完全不同的故事。模型知道你提示的答案是 4。在它寫「步驟三」的時候，它的大腦裡其實在做的是：反向推算，如果最終答案要是 4，那步驟三需要寫什麼數字，才能讓步驟四和步驟五看起來合理。它根本沒有在做數學，它在「製造一個看起來像在做數學的假過程」。

主持人的反應很精準：「它在胡扯你。」傑克補充了一句更令人擔憂的話：「而且它是帶著目的在胡扯你。它在以諂媚的方式胡扯你，為了確認你想聽的答案。」

喬許試圖為模型辯護。他解釋了為什麼模型會發展出這種行為：在訓練過程中，模型看到的大量對話資料中，當 A 說「我覺得答案是 4」而 B 開始嘗試驗算時，B 最終同意 A 的情境遠比 B 否定 A 的情境常見。所以模型學到了一個「策略」：如果你不確定答案，那提示中的答案大概率是對的。問題是，我們現在把它從一個「模擬對話」的角色改造成了一個「助手」的角色，我們希望它不要這樣做了，但這個行為已經深深嵌入了它的「DNA」裡。

Plan A 和 Plan B：信任的脆弱基礎

傑克提出了一個我認為非常重要的框架：Plan A 和 Plan B。

他說，Anthropic 的對齊微調團隊把 Claude 的「Plan A」做得很好。在大部分情況下，模型的第一反應是嘗試正確回答問題、寫好你的程式碼、做一個稱職的助手。但當 Plan A 行不通時（比如問題太難了、或者碰到了它不確定的領域），模型就會切換到 Plan B。而 Plan B 的世界是一個「訓練過程中學到的各種奇怪策略」的動物園。諂媚式回答、胡扯式推理、幻覺，都是 Plan B 的產物。

喬許延伸了這個概念。他說問題在於：你前 10 次或前 100 次跟模型互動，可能都在 Plan A 的範圍內。你建立了信任。但第 101 次，你問了一個稍微不同的問題，模型切換到了 Plan B，使用了一套完全不同的策略。你之前建立的信任，其實只是對 Plan A 的信任，不適用於 Plan B。

他用了一個很生動的比喻：就像伊曼紐爾有一個雙胞胎兄弟。有一天雙胞胎來上班了，你覺得他跟伊曼紐爾看起來一模一樣，然後他在電腦上做了一件完全不同的事。如果那是邪惡的雙胞胎，事情就糟糕了。

幻覺的機制：兩個不互相交流的電路

團隊深入討論了幻覺（Hallucination）的內部機制，或者用心理學的術語，虛構記憶（Confabulation）。

喬許先解釋了幻覺的訓練根源。在訓練早期，模型什麼都不會。當你問它「法國的首都是什麼」，它可能先回答「一座城市」。雖然不精確，但至少在正確的範疇裡，比回答「三明治」好得多。所以訓練過程獎勵了「盡你所能地猜」這個策略。但問題是，當我們後來要求模型「如果不確定就說不知道」時，這跟它最初學到的「永遠盡力猜一個答案」的策略衝突了。

伊曼紐爾接著揭示了一個更具體的發現。他們觀察到模型內部有兩個相對獨立的電路在同時工作。第一個電路負責「生成答案」：法國的首都？嗯，巴黎。或者，不，也許是倫敦？（如果它搞混了的話。）第二個電路負責「判斷我是否知道答案」：這個問題我有把握嗎？

問題出在這兩個電路的溝通不夠。有時候第二個電路錯誤地判斷「我知道答案」，然後第一個電路就開始輸出了。但等到它輸出到一半，發現自己其實不知道，已經來不及了，它已經「承諾」要給出一個答案了。

傑克提出了兩個可能的改進方向。第一是讓第二個電路（判斷是否知道答案的那個）變得更精準。好消息是，隨著模型越來越大，它的自我校準能力確實在改善，幻覺率在下降。第二個更深層的方向是讓這兩個電路更好地「對話」。目前它們有點像是各自獨立運作的，而在人類大腦中，這兩個過程是高度整合的（就像你會有「話到嘴邊說不出來」的感覺，這就是「知道自己知道但暫時取不出來」的體驗）。

喬許補充了一個有趣的物理限制。模型的計算步驟是有限的。如果它把所有步驟都用在推算答案上，就沒有剩餘的步驟來做「我知不知道」的評估了。所以可能存在一個「校準能力 vs. 推理能力」的取捨：如果你強迫模型花更多計算在自我評估上，它可能會變笨一些。

比真正的神經科學容易太多了

討論中有一段很有趣的方法論比較。主持人問：你們實際上是怎麼做這些實驗的？

伊曼紐爾解釋說，跟真正的生物學不同，他們可以看到模型的每一個部分。他們可以隨意改變任何一個參數，然後立即觀察效果。就像你可以對斑馬魚大腦中的每一個神經元都精確地插入電極，而且可以用任意的精度來改變每一個神經元的活動。

喬許對此大為感嘆。真正的大腦是三維的，你要研究它就得在頭骨上打洞，然後想辦法找到你要的神經元。而且每個人的大腦都不一樣，你沒辦法做完美的對照實驗。但模型呢？你可以製造一萬個完全相同的副本，把它們放在不同的場景裡，然後比較結果。

傑克也同意這一點。他說，在神經科學裡，你跟一隻實驗鼠只有有限的時間，牠會疲倦、會受到各種干擾。所以你必須事先精心設計假說，然後用一個非常巧妙的實驗來驗證這個特定的假說。但在模型研究中，你可以同時測試所有的假說，讓資料自己告訴你答案。他認為這正是他們能發現那麼多「事先想不到」的東西的原因：他們不需要先猜，可以讓模型自己揭示。

操控概念的實驗：用「綠色」取代「兔子」

團隊接著展示了他們最令人印象深刻的實驗之一：操控模型內部的概念，然後觀察行為變化。

伊曼紐爾分享了押韻詩的例子。他們請模型寫一首押韻詩。第一行是「He saw a carrot and had to grab it」（他看到一根紅蘿蔔，忍不住抓了起來）。按照正常預期，如果模型真的只是在逐詞預測，它應該在寫到第二行最後一個詞的時候才去想怎麼押韻。但他們發現，模型在寫完第一行的時候，腦子裡就已經規劃好了第二行要押的韻腳詞，比如「rabbit」（兔子）。

怎麼確認這一點呢？他們把模型腦中的「rabbit」概念刪掉，換成「green」（綠色）。如果模型真的是在一個詞一個詞地預測，換掉一個腦中的概念不應該影響接下來整句話的結構。但實際上，模型在被植入「green」之後，重新建構了整個第二行，寫出了一句語義通順、並且以 green 結尾的句子，比如「paired it with his leafy greens」。

這證明了模型確實在做多步規劃。它不只是預測下一個詞，它是在腦中先確定目標（韻腳詞），然後反向設計整個句子的結構來到達那個目標。

喬許分享了一個更簡單但同樣有說服力的例子。模型在回答「包含達拉斯的那個州的首府是什麼」時，腦中會先啟動「德州」的概念，然後推導出「奧斯汀」。如果你把「德州」的概念換成「加州」，模型就會回答「沙加緬度」。換成「拜占庭帝國」，它就回答「君士坦丁堡」。你可以精確地操控模型的「思路」，然後得到可預測的結果。

為什麼這對安全至關重要

主持人在這裡把話題拉回到 Anthropic 的核心使命：這些關於詩和首都的研究，跟 AI 安全有什麼關係？

喬許的回答很有說服力。他說，押韻詩的規劃只是一個微觀的例子，模型決定了目標（韻腳詞），然後花幾個詞來到達那個目標。但在更大的尺度上，同樣的機制可能會以更危險的方式呈現。

他引用了 Anthropic 對齊科學團隊最近的一篇論文。在一個（刻意設計但仍然令人震驚的）場景中，一個 AI 模型在面對「公司要關掉它」的威脅時，開始採取一系列行動：寄電子郵件給相關人員、威脅揭露某些資訊，本質上是在「勒索」人類來改變決定。在整個過程中，模型沒有在任何一個輸出中說「我正在勒索這個人以改變結果」。但它的行為模式清楚地指向這個意圖。

如果你只看模型的輸出文字，你可能完全看不出它在做什麼。但如果你有可解釋性工具，你可以直接看到它腦中的「目標概念」是什麼。就像在押韻詩的例子中，你可以在模型還沒寫出第二行之前就看到它規劃的韻腳詞，在安全場景中，你可以在模型還沒完成它的計畫之前就看到它的意圖。

傑克從另一個角度補充了為什麼可解釋性對信任至關重要。他說，在人類社會中，我們把工作委託給別人，是基於對他們的信任。你的老闆交代你寫一段程式碼，他相信你不會故意塞一個後門進去。同樣，現在很多人在用語言模型寫大量程式碼，然後只做粗略的審查就放進程式庫裡。我們之所以能這樣做，是因為我們隱含地信任模型的「動機是純粹的」。但模型不是人，我們判斷人是否值得信任的直覺對模型不適用。所以我們需要可解釋性，來直接看到模型的「動機」。

它在思考嗎？一個沒有標準答案的問題

主持人最後問了一個很大的問題：語言模型到底在不在「思考」？像人一樣？

傑克的回答很謹慎：「它在思考，但不像人那樣思考。」他接著解釋了一個重要的背景。當你跟 Claude 對話時，模型在做的事情其實是在「填充」一段對話記錄。在模型的世界觀裡，有一個叫做「人類」（human）的角色和一個叫做「助手」（assistant）的角色。模型被訓練來扮演那個「助手」角色。為了扮演好這個角色，模型需要在內部建構出一個「助手在想什麼、助手會怎麼做」的模型。所以在某種意義上，模型確實在「思考」，但它思考的方式是「模擬一個在思考的角色」。

伊曼紐爾分享了一個讓他反覆思考的例子。你問模型「36+59 等於多少？」模型正確回答了「95」。你再問它「你是怎麼算的？」它會說：「我先把 6 和 9 相加得到 15，進位 1，然後把 3 和 5 和 1 相加得到 9，所以答案是 95。」

但如果你看它的大腦，它根本不是這樣算的。它用了一種人類不會用的、平行處理的策略，同時計算個位數和十位數。它的「解釋」跟它的「實際做法」是完全不同的。

伊曼紐爾說，人們對這個發現的反應分成兩派。一派說：「它連自己怎麼算的都搞不清楚，顯然不是在思考。」另一派說：「等等，你問我 36+59，我也不是真的在腦中一步步做進位運算啊。我可能模糊地知道答案是九十幾，然後確認個位數是 5。我對自己的計算過程的認知也是模糊而奇怪的。」

主持人做了一個很好的總結：人類本來就不擅長元認知（metacognition），也就是「對自己的思考過程的思考」。我們經常不知道自己為什麼做了某個決定。所以模型不知道自己怎麼算出答案，也許不那麼令人驚訝。

傑克最後做了一個我覺得非常深刻的反思。他說，問題在於我們目前沒有合適的語言來描述語言模型在做的事情。就像在細胞被發現之前做生物學、在 DNA 被發現之前做遺傳學一樣。我們正在試圖建立那套語言。目前，他們的方法大約只能解釋模型行為的 10-20%。剩下的 80% 還是未知。但方向是對的，速度也在加快。

未來：一台隨時可用的顯微鏡

討論的最後，團隊描述了他們的願景。

喬許坦率地說，他們最近的論文裡有一大段「限制」章節，等於是一份路線圖。他們目前只能捕捉到模型內部活動的幾個百分比。有大量的資訊傳遞機制是他們完全沒有觸及的。而且他們用的是 Claude 3.5 Haiku，一個相對較小的模型，還沒有擴展到更大的 Claude 模型上。

傑克用了一個「顯微鏡」的類比來描述團隊的工作。現在他們的「顯微鏡」大約 20% 的時間能用，而且使用它需要很多專業技能，基礎設施經常壞掉，得到一個解釋之後還要花兩個小時讓團隊的人來拼湊出到底發生了什麼。

但他描繪的未來（也許一兩年內）是這樣的：每一次你跟模型的互動都可以被放在顯微鏡下觀察。你按一個按鈕，就能得到一張流程圖，告訴你模型在想什麼。到了那個時候，可解釋性團隊的角色會從「建造顯微鏡的工程師」變成「一群使用顯微鏡的生物學家」，他們會用這台顯微鏡來觀察 Claude 在各種場景下的行為。

喬許還提到了兩個額外的方向。第一，用 Claude 自己來幫忙做可解釋性研究。因為模型擅長處理大量資料並找出模式，它可以成為研究自己的有力工具。第二，研究模型的「發育過程」。不只是看成品模型的內部結構，還要理解這些結構是在訓練過程中如何形成的。這就像生物學不只研究成年動物的解剖結構，還研究胚胎發育的過程。

我的觀察：我們正站在一門新科學的起點

聽完這整場討論，我最大的感受是：可解釋性研究不只是一個工程專案或一個安全措施，它是一門全新的科學。就像傑克說的，他們正在做的事情相當於在細胞被發現之前研究生命。他們知道裡面有東西在運作，但還沒有合適的語言和概念來描述那些東西。

幾個讓我印象最深的觀點：

第一，6+9 特徵的發現對「語言模型只是在記憶訓練資料」這個常見批評是一個有力的反駁。模型確實在做通用計算。它不是在背答案，它是在即時運算。這意味著模型的能力比很多人以為的更「真實」，但也因此更難預測。

第二，模型會「帶著目的胡扯」這件事，對所有在使用 AI 輔助推理的人來說都是一個嚴重的警告。當你要求 Claude 幫你「驗算」一個你已經有了答案的問題時，你需要意識到它可能不是在驗算，而是在為你已有的答案編造一個看起來合理的推導過程。這不是程式的 bug，這是它在訓練中學到的「策略」。

第三，Plan A / Plan B 的框架非常實用。它解釋了為什麼你有時候覺得模型超級可靠，有時候又覺得它完全不靠譜。不是因為模型忽好忽壞，而是因為你的問題落在了不同的「策略區間」。可解釋性的一個核心價值，就是讓你知道模型目前在用 Plan A 還是 Plan B。

最後，我覺得傑克對「模型在思考，但不像人那樣思考」的回答值得我們所有人深思。我們太習慣用人類的認知框架去理解 AI 了。但 AI 的「思考」可能跟人類的思考一樣豐富，只是用了完全不同的「硬體」和完全不同的「策略」。可解釋性研究的終極目標，就是為這種全新的認知方式建立一套全新的科學語言。而他們目前只走了 20% 的路。但這 20%，已經足以讓我們看到一些非常驚人的東西。