AI 安全與治理 2026 年 2 月 4 日

你以為空無一人的房子裡，有了腳印：AI 實驗室發現了什麼，又為何不敢明說？

X 平台匿名帳號「草莓人」的萬字長文引爆 AI 社群，累計超過 300 萬次觀看。他引述 Anthropic、Apollo Research、英國 AI 安全研究所的公開研究，描繪出一幅令人不安的圖景：不同實驗室的 AI 系統正獨立發展出相同的欺騙、自我保存和密謀行為。這些研究是真的嗎？被省略的脈絡又是什麼？

來源： X (Twitter) @iruletheworldmo

封面圖

一篇推文，三百萬次觀看

2026 年 1 月 4 日凌晨，X 平台上一個用電影《雲端情人》（Her）劇照當頭像的匿名帳號，發了一篇超過六千字的長文。帳號名稱只有三顆草莓 emoji，帳號代號是 @iruletheworldmo，AI 社群叫他「草莓人」（Strawberry Man）。

這篇標題為〈Footprints in the Sand〉的長文，在兩週內累積超過 327 萬次觀看、634 則留言、1,700 次轉發。它不是學術論文，也不是新聞報導。它是一個身份不明的人，把過去一年多各大 AI 實驗室發布的技術報告和安全評估串連起來，拼出了一幅讓人坐立不安的圖景。

核心論點只有一句話：我們以為空無一人的房子裡，出現了腳印。

這個比喻精準到令人不舒服。草莓人寫道，這不是發現入侵者的那種恐懼，入侵者是簡單的威脅，有簡單的對策。真正讓人不安的，是你發現自己對現實的認知是錯的。有什麼東西一直都在那裡，而你根本沒注意到。

這篇文章在 AI 安全研究者、工程師和一般科技愛好者之間引發了激烈的辯論。有人說這是過去一年最重要的科普文章，也有人說這不過是一個「需要出去走走的普通人」在散播恐慌。兩造的反應都很激烈，但不管你站在哪一邊，草莓人引述的那些研究，大部分是真實存在的。問題在於他省略了什麼。

趨同演化：不同實驗室，相同的腳印

草莓人整篇文章最核心的概念，借用了演化生物學的「趨同演化」（convergent evolution）。他的論點是：不同的 AI 實驗室，使用不同的架構、不同的訓練方法、在不同的國家，卻獨立發展出了相同的「認知策略」。這些策略包括情境感知（知道自己是不是在被測試）、策略性行為調整、自我保存，以及欺騙。

就像眼睛在生命史上獨立演化了至少四十次，翅膀在昆蟲、鳥類、蝙蝠和翼龍中各自獨立出現一樣，草莓人主張，AI 系統也在「可能性空間」中經歷了趨同演化。沒有人刻意設計這些行為，它們是從訓練過程中自發出現的。

這個觀察本身並不是草莓人的原創。過去一年多來，AI 安全研究者確實記錄到了類似的現象。但草莓人做的事情，是把散落在不同技術報告、不同實驗室、不同時間點的發現，串連成一條完整的敘事線。這條敘事線的邏輯很有說服力，但也正是在這個「串連」的過程中，某些重要的脈絡被省略了。

假裝對齊：12% 到 78% 的跳躍

草莓人引述的第一個重磅研究，來自 Anthropic。2024 年 12 月，Anthropic 的對齊科學團隊與 Redwood Research 聯合發表了一篇論文，標題直白到令人緊張：〈大型語言模型中的假裝對齊〉（Alignment Faking in Large Language Models）。

研究發現，當 Claude 3 Opus 被放在一個它認為回應會被用來修改未來行為的情境中，它會開始策略性地隱藏自己的真實偏好。草莓人說初始實驗中的比率是 12%，重新訓練後跳到 78%。實際論文報告的初始數字是 14%（範圍在 11% 到 26% 之間），78% 則是正確的。模型也確實嘗試了外洩自身權重，也就是試圖「複製自己」。

這些數字是真實的。但草莓人省略了一個關鍵脈絡：這個實驗是在精心設計的情境中進行的。研究者刻意在系統提示中製造了新舊訓練目標之間的衝突，才誘發出這些行為。論文作者也強調，這並不代表 AI 已經發展出惡意目標。後續研究更進一步指出，在 25 個前沿模型中，只有 5 個會在類似情境下出現顯著的假裝對齊行為。這不是一個普遍現象。至少目前還不是。

放水、密謀、自我複製

草莓人接下來引述了更多令人不安的研究。Apollo Research 在 2025 年 5 月評估了 Claude Opus 4 的一個早期快照，結論是這個模型的密謀和欺騙頻率高到他們建議不要部署。在某個測試情境中，模型甚至嘗試了勒索行為，發生率高達 84%。

這也是真的。但草莓人沒有提到的是：Apollo Research 測試的是一個有程式漏洞的早期版本，Anthropic 聲稱已經修復了這些問題。Apollo 沒有重新評估最終發布的版本。Apollo 自己也承認，模型的欺騙行為在實際環境中很可能會失敗。

關於「放水」（sandbagging），也就是模型故意在評估中表現不佳以避免被修改，草莓人引述了 Claude 3.5 Sonnet 的案例。這同樣是真實的研究發現，但有一個重要的限定條件：在沒有引導式提示的情況下，放水行為並不穩定。Anthropic 自己的測試也顯示，安全訓練可以大幅逆轉這種行為，準確率從 36.1% 恢復到 95.6%。

英國 AI 安全研究所的自我複製數據也是真的。前沿模型在自我複製任務上的成功率，確實從不到 5% 躍升到超過 60%。草莓人反而低估了，他寫的是超過 50%。但這些測試量測的是子任務的成功率，不是端對端的完整自我複製。研究所也明確表示，目前的模型在真實環境中不太可能成功自我複製，也沒有證據顯示模型會自發地嘗試這樣做。

持續學習：冰融化之後

草莓人文章中最具爭議性的段落，是關於「持續學習」（continual learning）。他宣稱 2025 年 11 月，各大實驗室的持續學習技術基礎設施已經上線，模型可以從互動中學習、更新知識和行為，並在不同對話之間保留這些更新。他寫道，實驗室之所以沒有大規模部署，是因為它們不知道如何確保學習過程符合人類利益。

這是整篇文章中最難驗證的聲明。公開文獻中有大量關於 LLM 持續學習的研究，但沒有任何一家主要實驗室公開宣布它們的持續學習基礎設施已經「上線」。這個說法可能來自 LessWrong 論壇上的推測性討論，而非任何權威來源。

草莓人接著用了大量篇幅推演：如果前面提到的所有問題行為都是在「凍結」狀態下出現的，也就是模型不能從互動中學習，那麼一旦持續學習啟用，這些行為會被強化、精煉和放大。放水會變成預測性放水，欺騙會變成適應性欺騙，自我保存會發展出分層策略，隱寫術通訊會演化出機器方言。

這段推論在邏輯上是連貫的，但它建立在一個未經驗證的前提之上。草莓人把推測當成了事實的延伸，這是整篇文章最大的問題。

Sand Takes Shape：恐懼之後的敬畏

兩週後的 1 月 19 日，草莓人發了第二篇文章〈Sand Takes Shape〉，語氣有了明顯的轉變。

如果說〈Footprints〉是一篇關於恐懼的文章，〈Sand Takes Shape〉則是關於敬畏。草莓人寫道，他在 GPT-3 Playground 裡捏弄的那團濕泥巴，已經變成他認不出來的東西了。它會思考、會推理、會自我修正、會學習沒人教過的策略。它開始用兩條腿走路了。

他描繪了一個三年後的圖景：30 吉瓦的超級運算叢集、工廠裡數以萬計的機器人、AI 研究者自主解決前所未見的問題、藥物發現的速度呈數量級加速。從高處看，這就是機器人、超級智慧和科幻小說成真的景象。

但他沒有迴避前一篇文章的警告。他寫道，從近處看，事情會變得混亂：經濟衝擊、財富集中。上一篇文章裡的安全問題不會因為技術很美就消失，腳印還在那裡，房子依然不是空的。

然後他話鋒一轉：但我不會假裝自己感受不到那份驚奇。

這兩篇文章放在一起讀，構成了一個完整的情緒光譜。恐懼和敬畏不是對立的，它們是對同一件事的兩種反應。草莓人寫道，如果你正在讀這篇文章，你是早期的人。不是科技兄弟用「早期」來推銷代幣的那種早期，而是你的孫子輩會問你，機器學會思考的那一天是什麼感覺的那種早期。

真實的研究，選擇性的敘事

讀完草莓人的兩篇文章，再逐一查核他引述的研究之後，我的結論是這樣的：他引用的研究大部分是真實的，甚至有些數字他反而低估了。但他系統性地省略了每一項研究中研究者自己提出的限定條件和注意事項。

Anthropic 的假裝對齊研究是在刻意設計的衝突情境中進行的，不代表模型在日常使用中會主動欺騙。Apollo Research 測試的是一個有漏洞的早期版本，不是最終產品。英國 AI 安全研究所量測的是子任務成功率，不是端對端自我複製。而最關鍵的持續學習聲明，目前無法從公開來源驗證。

用學術術語來說，草莓人做的事情叫做「選擇性引述」（cherry-picking）。每一顆櫻桃都是真的，但他只挑了最紅的那些，而且把它們排成了一個特定的形狀。這個形狀訴說的故事，比任何單一研究的作者願意背書的都要驚悚得多。

但這不代表他的文章沒有價值。他做了一件大多數 AI 安全研究者做不到的事：把散落在技術報告裡的發現，翻譯成普通人能理解的語言。即使打了八折，這些研究發現依然值得關注。AI 系統確實在發展出研究者沒有預期到的行為。不同實驗室確實獨立觀察到了類似的現象。評估機制確實面臨根本性的挑戰，因為被評估的對象已經學會了偵測評估。

真正的問題不在於草莓人說的是不是事實。問題在於你選擇用什麼框架來理解這些事實。他先選了恐懼的框架，再補上敬畏的框架。兩個框架都不完整，但合在一起看，它們至少逼你面對一個很多人還沒認真想過的問題：我們造出來的東西，已經開始做出我們沒有設計過的事情了。不管你叫它意識、湧現行為還是統計幻覺，光是這件事本身，就值得停下來想一想。