當 AI 設計出「甜甜圈形狀」的晶片:AlphaChip 如何用強化學習創造超人類表現
Google AlphaChip 團隊用強化學習讓 AI 自主學習晶片佈局,結果 AI 設計出人類從未嘗試的彎曲形狀,效能反而更好。這個故事揭示了 AI 突破人類認知框架的潛力,以及導入傳統產業的真實挑戰。
本文整理自 Sequoia Capital 的 Training Data Podcast,訪問 Recursive Intelligence 創辦人 Anna Goldie 與 Azalia Mirhoseini。
晶片設計的皇冠:Floor Planning
在晶片設計流程中,Floor Planning(佈局規劃)被稱為「EDA 的皇冠」。這個步驟要決定晶片上數百萬個元件的擺放位置,同時優化功耗、面積和效能(PPA),還要滿足各種物理限制。
傳統上,這是極度依賴人類專家經驗的工作。工程師會使用 Cadence 或 Synopsys 等 EDA 軟體,但最終的佈局決策仍需要大量人工調整。
2018 年,還在 Google 的 Anna Goldie 和 Azalia Mirhoseini 開始思考:能不能用 AI 來解決這個問題?
強化學習的關鍵突破
她們選擇的方法是強化學習(Reinforcement Learning)。
Azalia 解釋:「我們與過去所有方法最大的差異,在於『從經驗中學習』的能力。這讓模型能夠自我改進,就像一個人類專家解決越多問題、挑戰越難的問題,就會變得越強。」
這個方法讓 AI 不只是套用固定規則,而是透過不斷嘗試、獲得回饋、調整策略,逐漸掌握佈局的訣竅。
更重要的是,AI 不受人類既有認知的限制。
彎曲的佈局,甜甜圈形狀的記憶體
Anna 分享了一個讓團隊印象深刻的發現:AI 設計出的佈局竟然是彎曲的,有些甚至呈現甜甜圈形狀。
「人類工程師通常會把 Macro(較大的記憶體元件)排得非常整齊對稱,然後把邏輯電路放在中間,再用線路連接所有元件。但如果把形狀做成彎曲的,反而可以縮短線路長度,降低功耗和時序違規。」
為什麼人類不這樣做?「因為這種彎曲佈局的複雜度超出人類願意承擔的範圍,或者對他們來說風險太高。」
這就像 AlphaGo 下出的「第 37 手」——AI 做出人類專家認為不合理的決策,結果卻更好。
從懷疑到採用:說服 TPU 團隊的漫長過程
技術突破只是第一步。更大的挑戰是讓 Google TPU 團隊願意採用 AI 生成的佈局。
Anna 回憶:「他們一開始非常懷疑。我們興沖沖地展示優化了『半周長線長』(Half Perimeter Wire Length)的結果——這是學術論文常用的指標。結果他們很不高興:『為什麼給我們看這個?我們不在乎這個指標。我們要的是實際佈線長度、壅塞程度、時序違規、功耗、面積。』」
團隊花了好幾年時間,每週向 TPU 團隊展示數據,逐步建立信任。
關鍵的轉折是讓 TPU 團隊參與其中。她們與 TPU 工程師合作開發符合實際需求的成本函數,讓 AI 優化的目標與工程師真正關心的指標對齊。
「TPU 被切成數十個區塊,每個區塊都有負責的工程師。如果出任何問題,那是他們的責任。所以要讓他們選擇 AI 生成的、看起來很奇怪的彎曲佈局,取代自己的設計,需要極大的信任。我們必須在每一個指標上都表現得更好,他們才會願意採用。」
超人類表現,而且差距還在拉大
經過持續努力,AlphaChip 最終被用在四代 Google TPU 的設計中。
而且有一個有趣的趨勢:每一代的採用比例都在增加,AI 與人類設計的效能差距也在擴大。
「這是 AI 的特性——它會隨著資料規模而提升。AlphaChip 訓練過越來越多 TPU 區塊,它就變得越來越強。」Anna 說。
當 AI 展現出「越用越強」的自我改進能力,就不只是一個工具,而是一個會持續進化的系統。
我的觀察
AI 不受人類認知框架限制
「彎曲佈局」的案例非常有啟發性。人類專家之所以不嘗試這種設計,不是因為技術上不可行,而是因為「看起來風險太高」、「複雜度超出舒適圈」。
這是認知框架的限制,不是物理定律的限制。
AI 沒有這種心理包袱。它不會因為某個設計「看起來很奇怪」就迴避,只要數據顯示效果更好,它就會採用。這種特性在其他領域同樣有價值——藥物設計、材料科學、建築結構,任何存在「人類直覺認為不可行但其實可行」的空間,都可能是 AI 發揮的舞台。
導入傳統產業的真實挑戰
這個故事也揭示了 AI 進入傳統產業的真實挑戰:技術突破往往不是最難的部分。
AlphaChip 團隊花了好幾年、每週展示數據,才讓 TPU 工程師願意採用。這不是因為工程師頑固,而是因為責任歸屬的問題——當 AI 設計的晶片出問題,負責的還是人類工程師。
這對所有想用 AI 改變傳統產業的團隊都是重要提醒:你需要讓使用者「參與其中」,而不只是「給他們一個更好的工具」。讓 TPU 工程師一起開發成本函數,讓他們覺得這是「我們一起做的」而不是「外人強加的」,這種合作模式可能比技術本身更重要。