從 OpenAI 出走到建立 Anthropic:共同創辦人首次完整回顧創業歷程
Anthropic 共同創辦人 Dario Amodei、Jack Clark、Chris Olah 等人首次完整回顧從 Google Brain 到 OpenAI 再到創辦 Anthropic 的歷程。這個故事反映了 AI 安全從邊緣學術議題走向主流的過程。

本文整理自 Anthropic YouTube 頻道 2024 年 12 月發布的影片。
一群「認真看待 AI」的人,怎麼走到一起
2024 年 12 月,Anthropic 罕見地讓多位共同創辦人同台,進行一場完整的內部對談。這不是產品發表會,也不是技術論文的導讀,而是一群人坐下來回憶:他們是怎麼認識的、為什麼會走進 AI 這個領域、又為什麼最後選擇離開 OpenAI,創辦一家以 AI 安全為核心使命的公司。
對談的主持人是 Jack Clark(Anthropic 共同創辦人暨前政策副總裁),參與者包括執行長 Dario Amodei、總裁 Daniela Amodei、以及可解釋性研究負責人 Chris Olah 等核心創辦團隊成員。這場對話涵蓋的時間跨度超過十年,從 Google Brain 時期的桌邊閒聊,一路談到 2024 年 Anthropic 的負責任擴展政策(RSP)如何改變整個產業的遊戲規則。
我之所以覺得這場對談值得詳細記錄,是因為它揭示了一件很少被好好講述的事情:AI 安全這個議題,是怎麼從一小群人的「怪異執念」,變成全球政府和企業都不得不正視的核心議題。這個轉變的過程,本身就是一堂關於科技趨勢判斷、組織建造和知識份子勇氣的課。
從物理學到 AI:早期交集的偶然與必然
Chris Olah 在對談中回憶,他 19 歲第一次造訪舊金山灣區時,就認識了 Dario Amodei 和另一位共同創辦人 Jared Kaplan,當時他們還是博士後研究員。後來 Olah 進入 Google Brain 工作,Dario 也加入了,兩人的辦公桌甚至就在隔壁。這種在 AI 領域早期耕耘的人自然而然會彼此認識的現象,在整場對話中反覆出現。因為在那個年代,真正相信 AI 會變成「大事」的人,數量少到彼此都認得出來。
Jared Kaplan 的故事特別有趣。他原本是物理學家,在學術界待了大約六年,做教授做到覺得無聊,想跟更多朋友一起工作。Dario 向他展示了各種 AI 模型的成果,試圖說明這些技術具有高度通用性。Kaplan 事後的反應很典型,他形容那次談話讓他意識到「這件事比我想像的嚴重多了」。Olah 聽到這裡忍不住笑說,Dario 經常對人產生這種效果。
Jack Clark 的路線則完全不同。他是記者出身,2015 年在一場學術會議上第一次見到 Dario,當時他想採訪對方,結果被 Google 的公關團隊要求先讀完所有相關論文。這段經歷聽起來像個笑話,但它其實反映了那個時代的一個特徵:大型科技公司還沒意識到 AI 研究會變成媒體和公眾關注的焦點,所以他們用對待學術研究的方式來處理記者的採訪請求。
我覺得這些早期交集的細節之所以重要,是因為它們說明了一件事:Anthropic 的創辦團隊不是某天突然決定要做一家 AI 安全公司。他們是在超過十年的時間裡,透過共同的研究、共同的擔憂、以及對彼此能力的深度了解,慢慢凝聚成一個有共識的群體。這種長期積累的信任,後來成為 Anthropic 文化的根基。
Scaling Laws 的震撼:安全團隊意外推動了最重要的技術突破
Anthropic 的故事有一個很多人不知道的諷刺起點:推動 AI 規模化(scaling)最重要的早期研究,其實是在 OpenAI 的安全團隊裡完成的。
Chris Olah 在對話中明確指出,Dario 在 OpenAI 領導的安全團隊之所以會做 Scaling Laws 的研究,初衷是為了預測 AI 的發展趨勢。他們的邏輯是:如果你想要讓人們認真看待 AI 安全問題,你首先得讓他們相信 AI 真的會變得非常強大。而 Scaling Laws 正好提供了這個證據,它顯示只要持續增加模型參數、訓練資料和算力,模型的表現就會以可預測的方式提升。
但事情的發展遠超預期。Jack Clark 回憶起他在英國某個機場用 GPT-2 生成假新聞的經歷。他把結果傳給 Dario,說這東西真的能寫出有模有樣的假新聞文章,可能會造成巨大的政策影響。Dario 的回覆很簡短,大意是「對」。但隨後他們一起投入了 GPT-2 的發布策略討論,以及後續更大規模模型的開發工作。
Dario 在對話中補充了一個關鍵觀點:他們之所以這麼興奮於 Scaling Laws,不只是因為模型變強了,更是因為語言模型的出現保證了 AI 系統必須理解人類的價值觀和溝通方式。在那個時代,AI 安全社群最大的恐懼之一是:如果超級智慧是某種完全無法與人溝通的系統,安全問題就會變得極度困難。但語言模型天然具備理解和生成人類語言的能力,這讓 RLHF(基於人類回饋的強化學習)等對齊技術變得可行。Dario 強調,規模化和安全性的深度交織,是他們至今仍然相信的核心理念。
這段歷史讓我重新理解了 Anthropic 的定位。很多人把 Anthropic 簡單歸類為「安全派」,但實際上,它的創辦團隊在 Scaling Laws 和大模型的前沿研究中扮演了核心角色。他們不是站在場外批評別人跑太快的人,而是那些最清楚引擎有多強大、所以更擔心方向盤是否可靠的人。
《AI 安全中的具體問題》:一篇論文如何改變整個領域
在所有塑造 AI 安全研究的文件中,2016 年發表的《Concrete Problems in AI Safety》大概是影響力最大的一篇。有趣的是,Dario 在對話中坦承,這篇論文其實是他為了逃避另一個不想做的專案而開始寫的。
Dario 和 Chris Olah 當時都在 Google,他們決定嘗試把 AI 安全的討論從抽象的哲學層次拉回到具體的機器學習問題上。在那個年代,談論 AI 安全往往意味著討論一些極其抽象的概念,比如決策理論(decision theory)或是超級智慧的控制問題。Dario 和 Olah 想要證明,即使用當時已有的 ML 技術框架,也存在大量值得認真對待的安全問題。
但 Olah 坦率地指出,這篇論文在某個層面上其實是一場政治運動。當時很多 AI 研究者根本不把安全問題當一回事,所以他們的策略是:先整理出一份大家都覺得合理的問題清單,然後盡可能多地找不同機構的知名研究者來掛名。Olah 回憶自己花了很長一段時間,跟 Google Brain 的二十多位研究員逐一溝通,爭取他們對這篇論文的支持。
Olah 也很誠實地評價了這篇論文的學術價值。他認為,如果單純看論文提出的具體問題,很多其實並不是後來真正重要的問題。但如果把它看成一次共識建設的努力,證明 AI 安全是值得嚴肅看待的真實議題,那它就是一個非常重要的歷史節點。
我認為這個故事揭示了科技史上一個被低估的現象:有些最重要的改變不是來自技術突破,而是來自敘事的轉變。在 2016 年之前,你如果在 AI 學術圈裡談安全問題,會被當成不切實際的悲觀主義者。這篇論文的功勞不在於它解決了什麼問題,而在於它讓「討論 AI 安全問題」這件事本身變得體面了。
AI 寒冬的心理陰影:為什麼雄心壯志曾經是禁忌
這場對話中最出乎我意料的段落,是關於 AI 寒冬的討論。不是技術層面的,而是心理層面的。
Jared Kaplan 作為物理學家轉行進入 AI 領域的人,他的觀察特別有穿透力。他指出,在 2022 年左右之前,AI 研究社群裡存在一種根深蒂固的心理創傷。經歷過 AI 寒冬的研究者,也就是那些看過 AI 被過度炒作後又陷入長期低谷的人,對任何形式的「雄心壯志」都抱持極度警戒的態度。在這種氛圍下,你如果說「AI 有一天可能會非常強大」,人們的第一反應不是「你可能是對的」,而是「你太狂妄了」。
這種保守主義對安全研究造成了雙重打擊。因為要認真看待 AI 安全問題,你首先得相信 AI 系統可能變得非常強大。如果整個研究社群都不允許你表達這種信念,那安全研究自然就沒有立足之地。Kaplan 認為物理學家的「傲慢」其實在這個脈絡下是一種優勢,因為理論物理學家習慣思考宏大的問題,不會因為別人覺得某個想法太野心勃勃就放棄它。
Chris Olah 則提出了一個更微妙的分析。他指出存在兩種截然不同的「保守主義」。一種是認真對待你所做的事情可能造成的風險和傷害,這是好的保守主義。另一種是認為「把一個想法看得太認真」本身就是一種科學上的傲慢,這是壞的保守主義。Olah 認為,AI 研究社群長期被後者所主導。
他還舉了一個極具說服力的歷史類比。1939 年,當物理學家之間開始討論核子彈是否可行時,費米(Enrico Fermi)最初持懷疑態度,因為它聽起來太瘋狂了。而像齊拉德(Leo Szilard)和泰勒(Edward Teller)這樣的人之所以堅持要認真看待這個可能性,恰恰是因為他們擔心其中的風險。這種因為「認真看待風險」而被當成「瘋子」的模式,在 AI 安全的早期歷史中同樣反覆上演。
Dario 則把這個觀察提升到了更高的層次。他說,過去十年他學到的最深刻教訓是:有些看起來像是成熟和智慧的共識,其實只是偽裝成理性的從眾行為。當你看到所謂的共識可以在一夜之間翻轉,而且看到這種翻轉重複發生好幾次之後,你就會學會一件事,那就是忽略噪音,根據自己的判斷下注。即使你只有百分之五十的機率是對的,你帶來的貢獻也是巨大的,因為那是別人完全沒有做的事情。
Jack Clark 的記者轉行記:用真金白銀押注 AI 的未來
Jack Clark 的個人故事是整場對話中最有戲劇性的片段之一。他在 2014 年就開始畫 ImageNet 成績隨時間變化的圖表,試圖說服彭博的編輯們這是一個重要的趨勢。沒有人理他。2015 年,他注意到幾乎每篇 AI 論文都提到了 GPU 的使用,於是想寫一篇關於輝達的報導。同事告訴他這是瘋話。2016 年,他決定離開新聞業進入 AI 產業,收到了好幾封信說他正在犯人生中最大的錯誤。
Clark 承認他偶爾會翻出那些郵件回味一下。
有人問他做這個決定時有沒有猶豫。Clark 說他用了一個巧妙的策略:他向彭博提出一個他知道對方一定不會答應的條件(讓他成為全職 AI 記者並且薪水翻倍),然後就去睡了。醒來之後,他直接遞了辭呈。他說驅動他做出這個決定的,是每天上班在讀論文、回家還在讀論文的那種感覺。他讀到 Dario 在百度的研究成果,讀到各種 Scaling 相關的突破,他覺得有一件完全瘋狂的事情正在發生,而你應該用行動來表達你的信念。
相比之下,另一位共同創辦人 Tom Brown 的決策過程就謹慎得多。他花了大約六個月反覆猶豫,考慮要不要做自己的創業,還是要加入某個已有的團隊。Daniela Amodei 指出,這種猶豫在當時其實很正常,因為那個時代 AI 領域幾乎只看重研究者,工程師能在 AI 安全上做什麼貢獻,是一個沒有明確答案的問題。
Tom Brown 最終選擇加入 OpenAI,是因為那裡的人告訴他,工程能力可以直接貢獻於 AI 安全研究。這在當時是一個新穎的觀點。在那之前,如果你想投入 AI 安全,你幾乎只有一條路:成為一個非常頂尖的數學家或決策理論研究者。OpenAI 打開了一扇新的門,而這扇門後來也成為 Anthropic 人才策略的核心。
Daniela 的 Stripe 到 OpenAI 之路:從國際發展到 AI 公司的意外轉折
Daniela Amodei 的職業軌跡可能是所有共同創辦人中最不典型的。她在加入 OpenAI 之前,在 Stripe 工作了五年半。更早之前,她在非營利組織和國際發展領域工作。她加入科技業的初衷其實是為了獲取技能,她原本計畫有一天要回去做公共衛生或政治工作。
但 OpenAI 改變了她的計畫。當時的 OpenAI 是一個非營利組織,有著宏大的使命、一群才華洋溢的人,但在組織管理上是一團亂。Daniela 形容那個場景「非常符合我的特質」,她就是那種看到一群懷抱好意卻不太會管理的人就會想要衝進去幫忙的性格。
她在 OpenAI 戴了很多頂帽子。她管人事,也管部分技術團隊。她接手了語言模型團隊和規模化組織的管理工作。她跟 Chris Olah 合作過,也處理過政策相關的事務。但她覺得自己帶來的最獨特貢獻,可能是把信任與安全(Trust and Safety)的概念引入了 AI 領域。
Jack Clark 回憶,在 GPT-3 完成之後,Daniela 問了一個讓所有人愣住的問題:「你們有沒有聽過一個叫做信任與安全的東西?」她之前在 Stripe 管理過這類團隊,她知道一個有影響力的技術產品需要有系統性的方法來處理濫用和安全問題。這個概念聽起來很基礎,但它其實是學術性的 AI 安全研究和日常營運之間的關鍵橋樑。正如 Daniela 所說,在風險還比較低的時候就開始鍛鍊這些肌肉,等到風險真正升高時,你才有能力應對。
Constitutional AI:一個聽起來瘋狂的點子如何變成了現實
Anthropic 成立初期最重要的研究方向之一,是後來被稱為 Constitutional AI(憲法式 AI)的方法。Jack Clark 回憶,當 Jared Kaplan 第一次描述這個構想時,他覺得對方在說一件不可思議的事情。Kaplan 的說法大概是:「我們就寫一部憲法給語言模型,然後它就會改變自己的行為。」
Kaplan 解釋了為什麼他和 Dario 相信這個方法會有效。他們的核心信念是:在 AI 領域,簡單的方法往往效果驚人地好。Constitutional AI 的第一版其實相當複雜,但他們持續簡化,最後把它歸結為一個優雅的策略:利用語言模型本身擅長做多選題的能力,給它一組明確的行為準則,然後讓它自我評估是否符合這些準則。
Dario 把這個邏輯連結回 Scaling Laws 和苦澀教訓(Bitter Lesson)。他的觀點是,只要你能把想要 AI 做的事情轉化為一個清晰的目標,並且提供足夠的訓練資料,你就能讓它學會。行為準則就是目標,語言模型自己的行為就是可以評估的對象,訓練信號就這樣產生了。剩下的只是調整細節的問題。
我覺得 Constitutional AI 的故事之所以重要,不只是因為它後來成為 Claude 的核心技術之一,更是因為它體現了 Anthropic 這群人的一種思維方式:不是在 AI 和安全之間做取捨,而是把安全需求轉化為可以用 AI 自身能力來解決的技術問題。這種把約束條件轉化為工程目標的能力,在後來的 RSP 設計中同樣發揮了關鍵作用。
共識的崩塌與重建:AI 安全如何從邊緣走向白宮
Dario 在對話中點出了一個他認為具有普遍性的模式:表面上的共識常常不是真正的智慧,而只是集體的從眾行為偽裝成理性。他看過太多次這種共識在一夜之間翻轉的例子。2014 年你說 AI 會變得很強大,人家笑你。2024 年你如果說 AI 不會變得很強大,人家笑你。改變的不是事實,而是社會對事實的態度。
Jack Clark 說,他和 Dario 在 2023 年去白宮開會,當時的副總統賀錦麗(Kamala Harris)和商務部長雷蒙多(Gina Raimondo)基本上告訴他們:「我們正在盯著你們,AI 將會是一件非常重大的事情,我們現在真的開始關注了。」Clark 事後的反應是,她們說得完全正確。但他又補充說,如果在 2018 年你告訴任何人,有一天美國總統會把你叫到白宮,就為了告訴你他們正在密切關注語言模型的發展,沒有人會相信你。
Daniela 則從另一個角度描述了這個轉變。她在使用者研究中越來越常聽到普通人表達對 AI 的深層擔憂,不只是工作被取代或偏見歧視這種具體問題,而是更根本的疑問:AI 會不會從根本上改變人類協作和社會運作的方式?她坦承自己沒有預料到公眾的意識會轉變得這麼快。
Jared Kaplan 則做了一個有趣的觀察。他發現 ML 研究者社群對 AI 的潛力一直比一般大眾更悲觀。這乍聽之下很矛盾,但其實有道理。在學術圈裡待久了的人,見過太多被過度炒作後失敗的技術,他們的默認反應就是懷疑。而一般大眾沒有這種歷史包袱,反而更容易根據直覺判斷:「這個東西看起來確實很不一樣。」
Jack Clark 提出了一個我覺得很重要的觀點。他說 Anthropic 目前處於一個「反共識」的位置:主流看法認為 AI 安全問題是一些不自然的、需要額外強加的限制,但 Anthropic 的研究一再顯示,安全對齊的問題是技術本身的自然產物。你在建造這些系統的過程中,就會自然地遇到各種奇怪的安全失調現象。它們不是別人硬塞進來的顧慮,而是工程實踐中真實存在的挑戰。
RSP 的誕生:從「在某個點停下來」到「建立一整套制度」
負責任擴展政策(Responsible Scaling Policy, RSP)是 Anthropic 對 AI 安全領域最重要的制度性貢獻之一。Dario 在對話中詳細回溯了它的起源。
2022 年底,Dario 和 Paul Cristiano(AI 對齊領域的重要研究者)開始討論一個問題:是否應該在某個特定的規模點停止模型的訓練,直到解決了某些安全問題為止。但他們很快發現,設定一個單一的停止點然後再取消,這種做法本身就很奇怪。於是他們把它改成了一系列的門檻,在每個門檻上都需要進行特定的安全測試,並且隨著模型能力的提升,安全和保密的要求也要逐步加嚴。
Dario 回憶,最初他們希望這個框架由第三方來設計和推動,因為如果由單一公司提出,其他公司就更不可能採用。所以 Paul Cristiano 離開去獨立設計了他的版本,而 Anthropic 內部也在平行開發自己的版本。當 Cristiano 公布了他的概念之後,Anthropic 在一兩個月內就發布了自己的 RSP。
這份文件經歷了無數次迭代。Dario 自己至少寫了一個完整的草稿版本,但團隊中有許多人都參與了修訂。Jared Kaplan 說 RSP 大概是他們寫過的所有文件中草稿最多的一份。
Tom Brown 用了一個精準的類比來形容 RSP 的重要性。他說它之於 Anthropic,就像憲法之於美國。美國之所以不容易脫軌,一個重要原因是每個公民都把憲法視為神聖不可侵犯的文件。RSP 在 Anthropic 內部扮演的就是這個角色,它值得投入大量的迭代來把它寫對。
Daniela 從組織營運的角度補充了更多細節。她觀察到,RSP 的發展經歷了好幾個不同的階段,每個階段需要不同類型的技能。最初是大的原則性討論,然後是非常具體的營運層面的迭代(比如發現某個安全等級的預期跟實際狀況不符,就要調整標準),接著又有組織架構的調整(改變 RSP 團隊的結構以確保更清晰的責任歸屬)。她再次援引了憲法的比喻:美國不只有一份憲法,還有法院、最高法院、國會、總統等一整套制度來確保憲法被遵守。Anthropic 也在學習同樣的教訓,一份文件需要一整套配套的組織基礎設施。
RSP 的真實運作:從內部對齊到外部溝通
RSP 在 Anthropic 內部的運作方式,比很多人想像的要更深入和更實際。
Dario 強調了 RSP 的一個關鍵功能:它迫使整個組織保持統一。如果組織裡有任何部門不認同安全價值觀,RSP 就會阻擋他們想做的事情。它不是一套漂亮的口號,而是一個你每天都會撞上的實際障礙。你要嘛學會配合這套系統,要嘛你就在這裡待不下去。
Chris Olah 從激勵機制的角度分析了 RSP 的設計。他認為 RSP 在多個層面上創造了健康的激勵結構。對內,它讓每個團隊的利益都跟安全掛鉤,因為如果安全進展不夠,大家的工作都會被卡住。對外,如果 Anthropic 有一天需要做出某個重大的安全決定,比如宣布某個模型還無法安全部署,RSP 確保這個決定是有證據支持的、有預先建立的框架可以參照的、而且是透明可理解的。Olah 承認他在早期版本的討論中並沒有完全理解 RSP 的這些優點,但隨著時間推移,他越來越認為它比其他任何他想到的替代方案都更好。
Jack Clark 分享了他在政策溝通中的經驗。他說 RSP 花了他們數千小時的工作,但當他去跟美國參議員解釋時,對方的反應基本上是:「你的意思是,你們有一套確保你們的產品不容易被竊取、而且是安全的機制?這聽起來完全正常啊。你是在告訴我不是所有人都這樣做嗎?」Clark 說,這正是他們想要的效果,讓 AI 安全變成一件像財務審計一樣無聊、正常、理所當然的事情。Daniela 也附和說她花了很多時間思考 RSP 的語氣和表述方式,因為如果它讀起來太技術官僚化或甚至帶有對抗性,人們就不會想要參與。
Tom Brown 則分享了 RSP 在對外合作中的實用價值。作為負責 Anthropic 算力的人,他經常需要跟外部合作夥伴溝通,而這些人對 AI 發展速度的預期各不相同。RSP 讓這些對話變得簡單:你不需要說服對方相信 AI 很快就會變得非常危險,你只需要指著 RSP 說,當事情變得嚴重時,我們會啟動相應的安全措施。對方可能覺得那一天還很遠,但至少他們理解這個框架,也覺得它合理。
評估、評估、再評估:安全的肌肉如何鍛鍊
當 Jack Clark 問 RSP 對大家日常工作的影響時,Chris Olah 和 Jared Kaplan 幾乎異口同聲地說出了同一個詞:評估(evals)。
在 Anthropic 內部,幾乎每個團隊都在做評估。訓練團隊持續測試新模型是否獲得了可能造成危險的新能力。前沿紅隊(Frontier Red Team)專門負責尋找模型可能被利用的方式。Jared Kaplan 解釋了為什麼這件事這麼困難:要證明一個模型「至少能做到」某件事是相對容易的,但要證明它「最多只能做到」某個程度,也就是給模型的能力設定上限,則困難得多。他們投入大量研究精力,試圖找出各種可能讓模型完成危險任務的技巧,比如思考鏈(chain of thought)、特定的提示工程技術、或工具使用等。
Dario 在這裡提出了一個重要的觀點。他承認,制定正確的政策、評估標準和界線一直是一個極具挑戰性的過程。有些東西很明顯是危險的,有些很明顯是安全的,但對於一項這麼新的技術來說,中間存在大量的灰色地帶。直到你真正嘗試去實施每一條規則,你才會發現哪些地方會出問題。所以 Anthropic 的策略就是盡早開始實施,這樣就能盡早發現問題。
Jack Clark 補充說,RSP 在政策圈也發揮了巨大的作用。「安全」一直是一個非常抽象的概念,但當他可以具體地說「我們有一個評估體系,它的結果決定了我們是否部署這個模型」時,政策制定者和國安專家就會更積極地幫助他們校準這些評估標準。如果沒有 RSP 這個具體的框架,這種合作根本不會發生。
Dario 用了一個精準的比喻來說明過度反應的危險。他說,如果一棟建築的火災警報每週都響,那它其實是一棟非常不安全的建築,因為當真正的火災發生時,沒有人會認真對待警報。在 AI 安全領域保持校準,也就是不要對不是真正問題的事情大驚小怪,跟識別真正的風險同等重要。
沒有人想創辦公司:使命感如何驅動一群科學家成為企業家
對話中最觸動我的一個時刻,是當某位發言者說出「我們沒有人真正想要創辦一家公司」的時候。Daniela 立刻接話說:「我覺得我們不得不這麼做。」
Jared Kaplan 解釋了他的心路歷程。他原本的志向是以某種有益於社會的方式進行發明和發現。這個志向引導他走向了 AI,而 AI 研究需要大量的工程,後來又需要大量的資本。但他發現,如果你不主動去營造環境、建立自己的公司文化,那麼很多事情就會重複他在科技社群中感到疏離的那些老問題:同樣的人、同樣的態度、同樣的模式。到了某個時間點,用不同的方式來做這件事似乎就成了必然的選擇。
Chris Olah 則揭露了一個鮮少被提及的內部張力。他說他其實相當不願意離開 OpenAI。他一方面不確定世界上多一個 AI 實驗室是否真的對全人類有益,另一方面他更傾向於成立一個非營利機構,專注做安全研究就好。最後是務實主義和對現實約束的誠實面對,促使他接受了創辦 Anthropic 這個方案。
Dario 提供了他自己的決策邏輯。他當時在學術界做研究,確信 AI 正在經歷一個非常非常陡峭的影響力增長軌跡。但因為 AI 研究需要的資本規模,光靠學術界根本無法繼續做有意義的貢獻。他想跟他信任的人一起工作,建立一個能讓 AI 發展走向好的方向的機構。他隨即補充了一句我覺得非常到位的話:「我絕不會推薦別人去創辦公司。創辦公司只是達成目標的手段。而通常,事情能做好,正是因為你真正在乎的是完成一個真實世界的目標,而不是為了致富或獲取權力。」
Jack Clark 把時間線拉回到 2020 年。他說,在 GPT-3 完成之後,他們所有人都觸碰過這個模型、參與過 Scaling Laws 的研究,他們可以清楚地看到前方是什麼。那個時刻他們覺得,如果不趕快一起做點什麼,就會到達一個無法回頭的臨界點,從此失去改變環境的能力。
低政治、高信任:Anthropic 的文化密碼
關於 Anthropic 的內部文化,對話中透露了幾個不尋常的細節。
Tom Brown 首先提到了一個叫做「80% 承諾」(80% pledge)的東西。雖然他沒有詳細解釋,但暗示這是一項關於薪酬或資源分配的共同承諾。他說當這個提議被提出時,每個人的反應都是「當然,這太顯然了」。他認為這種不假思索的共識反映了團隊之間深厚的信任基礎。
Daniela 則指出了 Anthropic 的一個特質:極低的政治氛圍。她知道作為領導者,她的視角可能跟一般員工不同,但她確實認為 Anthropic 是一個對內部政治有「過敏反應」的地方。她把這歸功於面試流程和他們吸引到的人才類型。Jared Kaplan 用一個更直白的說法:「低自我(low ego)」。Dario 則把功勞歸給 Daniela,說她是公司文化能夠隨著規模擴大而保持品質的關鍵原因。Dario 的原話是「把小丑擋在門外」(keeping out the clowns),Chris Olah 在旁邊笑著重複了這句話。
Dario 在這裡闡述了他認為 Anthropic 最重要的組織原則:統一(unity)。他不是指那種表面上的團結,而是指產品團隊、研究團隊、信任與安全團隊、市場團隊、政策團隊和安全團隊,所有人都真正相信他們在為同一個目標努力。他認為最功能失調的狀態是,公司裡的不同部門覺得彼此在做不同的事、追求不同的目標、甚至認為其他部門在破壞自己的工作。而 Anthropic 設法保持的,是一種所有部門都在同一個「變革理論」(theory of change)下運作的狀態。
Daniela 用一個具體的例子來說明這種統一有多罕見。她描述了一個場景:Mike Krieger(Instagram 共同創辦人,現任 Anthropic 產品長)為了安全原因主張不要急著推出某個產品,而同時負責商業策略的人則在想辦法把事情推過終點線。更驚人的是,她聽到深入技術安全部門的人也在談論為使用者打造實用產品的重要性,而推論引擎的工程師也在談安全。她說,在一家公司裡看到這種程度的跨部門共識,是極其罕見的。
向上競賽:為什麼 Anthropic 必須既安全又有競爭力
Anthropic 的核心策略被內部稱為「Race to the Top」(向上競賽)。這個概念是所有共同創辦人在對話中反覆強調的主題。
Dario 的論述邏輯很清晰。如果你只是說「我們不打算開發這項技術」,你永遠無法證明從 A 點到 B 點是可能的。世界需要的不只是某個公司的善意,而是整個產業成功地從「這項技術不存在」過渡到「這項技術以非常強大的方式存在,而且社會真正管理好了它」。他認為唯一能實現這一點的方式,是在單一公司的層面,最終在整個產業的層面,真正去面對那些取捨。你必須找到一種方式,既保持競爭力、在某些方面甚至引領產業,同時又能做到安全。如果你能做到這一點,你對產業施加的引力就會非常巨大。
Jack Clark 從市場的角度補充了這個論點。他說市場是務實的,Anthropic 作為公司越成功,其他公司就越有動力去複製那些讓它成功的要素。而如果成功與安全之間有強關聯,那整個產業就會自然地向安全靠攏。他的原話很直接:「我們願意先造安全帶,然後讓其他所有人複製它們。那很好。那是好的世界。」
Chris Olah 則提出了一個更深層的觀點。他說有一種敘事認為,做安全研究的人應該「高尚地失敗」,也就是用某種不務實的方式來展示自己對安全的純粹承諾。但 Olah 認為這種做法其實是自我毀滅的。因為如果關心安全的人系統性地讓自己失去影響力,那麼最後做決定的人就會被自我篩選為不在乎安全的人。相反,如果你努力找到讓激勵機制對齊的方式,確保困難的決定發生在最有力量和最有證據支持的時間點上,你就能啟動 Dario 所描述的向上競賽,把其他人拉向安全的方向,而不是讓關心安全的人被推到邊緣。
Dario 也提出了一個重要的警告。他說 Anthropic 不是末日論者(doomers)。他們想要建造正面的、美好的東西。他們必須非常小心,不能像「狼來了」那樣過度反應,不能說創新必須在這裡停止。他們的目標是找到那條線:讓 AI 對使用者有用、創新、令人愉悅,同時也找出那些他們真正能夠站得住腳的安全約束條件,讓其他公司也覺得自己可以做到。
而事實證明這個策略已經在起作用。Dario 提到,在 Anthropic 發布 RSP 後的幾個月內,三家最主要的 AI 公司都推出了自己的版本。Jack Clark 補充說,Frontier Red Team(前沿紅隊)的做法幾乎是被立即複製的,而且他認為這是好事。你希望所有的實驗室都在測試那些真正可怕的風險。Daniela 也指出,安全對客戶的重要性正在成為一個巨大的市場力量。客戶不想要會幻覺的模型,不想要容易被破解的模型。很多客戶選擇 Claude 就是因為他們覺得它更安全、更值得信賴。
展望未來:可解釋性、生物學與民主
對話的最後一個環節是關於未來最讓他們興奮的方向。每個人的回答都反映了他們各自的背景和關注點,但有一個共同的底色:樂觀,但不是天真的樂觀。
Chris Olah 毫不意外地談到了可解釋性研究(interpretability)。但他的切入點出人意料。他說他對可解釋性興奮的原因不只是安全,還有一個在情感層面同等重要的理由:神經網路是美的。他說我們把它們當成黑盒子,對內部結構不感興趣。但當你真正開始往裡面看,會發現裡面充滿了驚人而美麗的結構。他用演化做比喻:如果有人看著生物演化說「就是一個簡單的過程跑了很長時間然後產生了動物,很無聊」,那他就錯過了每一個演化產物內部那難以置信的複雜性和精妙結構。神經網路內部存在著一整套「人工生物學」,只要你願意去看,就能發現各種令人驚嘆的東西。
Olah 甚至想像了十年後的場景:走進一家書店,買一本關於神經網路可解釋性的教科書,翻開裡面那些不可思議的發現。他相信在接下來的幾年裡,他們就會開始真正揭開這些東西。
Jack Clark 的興奮點則是在制度層面。他說幾年前如果有人說,各國政府會成立新的機構來測試和評估 AI 系統,而且這些機構會真的有能力、有水準,大多數人不會相信。但這件事確實發生了。各國政府建立了這些新的「大使館」來應對這種全新類別的技術。Clark 認為這意味著國家層面有足夠的能力來處理這場社會轉型,這件事不只是公司的責任。
Daniela 把目光投向了 AI 在生物和醫學領域的應用。她回顧了自己在國際發展領域的早期工作經歷,想像如果 Claude 有一天能夠幫助加速疫苗開發、癌症研究和基礎生物學研究,那將是一件多麼不可思議的事情。她說,即使把其他所有潛在應用都拿掉,光是在健康領域的可能性就已經讓她極度興奮。
Tom Brown 的回答最接地氣。他說他個人越來越喜歡使用 Claude,在家裡花越來越多時間跟它聊天。但讓他最震驚的變化是程式碼領域。六個月前,他自己的團隊幾乎不用 Claude 寫程式。但到了他在 Y Combinator 演講的時候,他問在場的人有多少人用 Claude 寫程式,場內幾乎所有的手都舉了起來,大約 95%。他說這跟四個月前完全是兩個世界。
Dario 的展望則最宏大。他提到了三個他認為「共識即將崩塌」的領域。第一是可解釋性,他認為它不只是安全工具,還包含了關於智慧優化問題和人腦運作的深刻洞見。他甚至半開玩笑地說 Chris Olah 未來會成為諾貝爾醫學獎得主,然後又強調他是認真的。因為作為前神經科學家,Dario 認為很多我們尚未理解的精神疾病,比如思覺失調症或情緒障礙,可能跟某種更高層次的系統問題有關。在生物大腦中研究這些問題極其困難,因為大腦又軟又難以操作。但神經網路不是這樣,雖然不是完美的類比,但隨著時間推移,這個類比會越來越準確。
第二是 AI 在生物學中的應用。他提到了 AlphaFold 獲得諾貝爾化學獎的成就,然後說我們的目標應該是建造能幫助產生一百個 AlphaFold 等級突破的工具。
第三是用 AI 來增強民主。Dario 擔心如果 AI 以錯誤的方式建造,它可能成為威權主義的工具。但他同樣相信 AI 可以成為自由和自決的工具。他承認這個方向比前兩個更早期,但認為它同等重要。
我的觀點:安全不是煞車,而是方向盤
看完這整場對話,我最強烈的感受是:Anthropic 的故事從根本上改變了我對 AI 安全的理解。
在這場對談之前,我對 AI 安全公司的刻板印象是一群人站在場邊,試圖讓賽車開慢一點。但 Anthropic 的共同創辦人們呈現的是完全不同的圖景。他們是那些最早看到 Scaling Laws 的人、親手建造了 GPT-2 和 GPT-3 的人、對 AI 能力的上限最不抱幻想的人。他們不是要踩煞車,而是要確保這輛車有方向盤。
這個區別很重要。如果你把安全當成煞車,那安全和進步就永遠是對立的。但如果你把安全當成方向盤,那它就是讓進步能夠持續的前提條件。Anthropic 的整個策略,從 Constitutional AI 到 RSP 到 Race to the Top,都是建立在這個認知之上的。
另一個讓我印象深刻的是,這群人對「共識」的高度警覺。Dario 說的「偽裝成成熟和老練的從眾行為」這句話,我覺得不只適用於 AI 領域,它描述了一種存在於所有專業社群中的認知陷阱。在科技媒體的工作中,我經常看到類似的現象:某個觀點因為被夠多「聰明人」重複了夠多次,就自動獲得了「真理」的地位,直到某一天突然翻轉,然後所有人都假裝自己早就知道了。
這場對話最終讓我思考的問題是:在一個技術變革速度遠超制度建設速度的時代,Anthropic 這種「在公司內部先建立制度,然後嘗試將其擴展到整個產業」的策略,是否真的能跟上 AI 能力增長的腳步?RSP 的核心假設是你可以在模型能力的不同等級之間設定合理的門檻,但如果能力的增長是跳躍式的而非漸進式的,這套系統是否仍然有效?這些問題沒有簡單的答案。但至少,有一群既有能力建造前沿 AI 系統、又願意認真面對這些問題的人在嘗試回答它們,這件事本身就讓我覺得,未來的走向或許沒有最悲觀的預測那麼糟。