AI 技術前沿

Cohere 首席 AI 長:記憶、世界模型、階層式規劃,AI 研究還有三座大山要翻

Cohere 首席 AI 長 Joelle Pineau 在達沃斯論壇接受 Big Technology Podcast 訪問,盤點 AI 研究三大前沿方向:記憶、世界模型與階層式規劃。她認為 AI 的能力遠超企業目前的使用程度,研究者不該追求單一超級 Agent,而是朝多元專精 Agent 的未來邁進。

來源: Big Technology Podcast
Cohere 首席 AI 長:記憶、世界模型、階層式規劃,AI 研究還有三座大山要翻

本文整理自 Big Technology Podcast 2026 年 2 月播出的單集。


你可能聽過不少 AI 實驗室的執行長談願景、談商業策略,但真正站在研究前線、同時又有產品落地經驗的人怎麼看?Joelle Pineau 是少數同時橫跨學術與產業的 AI 研究者。她是麥基爾大學(McGill University)教授,曾在 Meta 領導 FAIR(Fundamental AI Research)基礎 AI 研究部門,2025 年加入 Cohere 擔任首席 AI 長(Chief AI Officer)。

在達沃斯世界經濟論壇的 Qualcomm House,她接受 Big Technology Podcast 主持人 Alex Kantrowitz 專訪,把 AI 研究的現狀攤開來講了一遍。

她不擔心 AI 研究會撞牆。真正讓她在意的,是三個到目前為止還沒出現突破性進展的研究方向:記憶、世界模型,以及階層式規劃。

記憶:不是把 context window 開大就好

Pineau 把 AI 研究的前沿拆成「要解決什麼問題」和「怎麼解決」兩個面向,而她放在第一位的是記憶。機器儲存大量資訊不是問題,問題在於它不知道什麼時候該拿出哪一塊來用。Transformer 架構的注意力機制確實是一個重要進展,但她直接說了:「Attention is all you need,結果不是。你需要的比那個多。」光是注意力不夠,模型必須學會在不同的時間尺度、不同的粒度上處理資訊。

主持人 Kantrowitz 拿了一個很直觀的例子來問她。他在 Gmail 裡用 Gemini 搜尋和太太的第一封電子郵件,結果找不到。這到底是技術問題還是產品問題?Pineau 的回答很務實:問題可能出在三個完全不同的層次。模型有沒有被授權去看那些資訊?資訊被壓縮成嵌入(embedding)存放時,有沒有正確編碼?還是其實檢索到了一萬筆結果,但目標資訊的排名太後面,根本沒被呈現出來?

但她也說,當記憶能力運作正常的時候,體驗是很驚人的。Kantrowitz 分享了他用 Claude 分析訪談逐字稿的經驗,Claude 不只給出評分,還主動跟之前上傳的其他訪談做比較,告訴他哪些訪談的觀點更有深度。Pineau 對此並不意外,她認為記憶技術正在取得實質進展。

不過她對「持續學習」(continual learning)倒是有些保留。她坦言這個領域的研究社群一直無法達成共識,到底問題要怎麼定義,每個人做的都是不同口味的研究,很難判斷整體是否在進步。更重要的是,讓模型在上線後持續學習有實際的風險。

她提到微軟 2016 年的聊天機器人 Tay,上線不到一天就被使用者帶壞,開始輸出各種極端言論。Kantrowitz 正好就是當年第一個報導 Tay 的記者,他還把那篇報導釘在推特頂部,結果睡一覺醒來收到一堆訊息叫他趕快取消置頂。

推理的真正挑戰:在不同粒度之間跳躍

Pineau 談推理的切入角度跟多數人不同。她認為目前推理模型的瓶頸不在推理本身,它們卡在只能用一種解析度思考。她用規劃旅行來比喻:你不會一開始就想穿什麼鞋,而是先決定大概什麼季節、去哪個地區。確定了大方向之後,再往下一層細化時間、地點、同行的人。但如果訂不到想要的機票或飯店,你得跳回上一層重新調整,也許改時間,也許改目的地,也許決定不帶小孩好有更多彈性。

這種在不同層次之間來回跳躍、重新規劃的能力,技術上叫做「階層式規劃」(hierarchical planning)。目前的推理模型在單一層次上表現不錯,比如控制機器人手臂的馬達動作。但要在不同解析度的行動之間來回切換,同時保持資訊一致,還是非常困難。

Pineau 認為程式碼訓練可能是解鎖這種能力的關鍵之一。程式碼天然就有階層結構:函式、變數、函式庫,不同層次的抽象清楚地編碼在裡面。大量訓練程式碼,模型有機會「推論出」這種結構性的線索,進而發展出更好的階層式推理能力。

她還提到 Anthropic 發表的一項研究,發現 Claude 在寫詩的時候,寫第一行就已經在啟動模型中負責押韻的特徵,替下一行做準備。換句話說,即使是「預測下一個 token」的架構,模型內部其實已經在做某種前瞻性思考。Kantrowitz 引用 Andrej Karpathy 的說法:Transformer 本身就是一台電腦,每生成一個 token 就是走過一次運算。生成越多 token,可用的運算量就越大。

世界模型:不需要一個無所不知的超級 Agent

世界模型是 Pineau 點出的第三個前沿方向。白話講,世界模型就是讓 AI 能預測行動的後果。你要建造能在真實世界活動的機器人,它得理解重力、碰撞、摩擦力。你要建造能在網路上完成金融交易的 Agent,它得理解交易的連鎖效應。

但 Kantrowitz 提了一個好問題:為什麼不能用文字教會模型這些規則就好?你告訴它「不要亂用信用卡,否則我會破產」,這樣不行嗎?

Pineau 直接把世界模型分成兩種:物理世界模型和數位世界模型。在網路上運作的 Agent 不需要理解重力,就像負責移動物體的機器人不需要理解銀行系統。「世界」可以是一個有邊界的環境,Agent 只需要理解它所部署的那個環境的規則就好。

但真正的挑戰在於取得足夠的資料來涵蓋所有可能的未來情境。她舉了影片生成的例子:目前的模型可以預測一支鉛筆掉到桌上會彈起來,因為它看過足夠多這類影片。但你叫它預測同一支鉛筆在另一個星球上掉落的行為,它大概會錯,因為所有訓練資料都基於地球的重力常數。

Kantrowitz 則指出,他最近看到一段 AI 生成的影片,裡面一個人拿著保麗龍杯,手指直接穿過了杯壁。物理世界模型還有很長的路要走。

AGI 到底需不需要理解重力?Pineau 不認為我們會走向一個超級 Agent 的未來。「我更傾向賭注的方向是,我們將生活在一個有許多 Agent 各司其職的未來。」有些 Agent 需要理解重力,有些不需要。這些 Agent 之間需要的是互動和溝通的協定,而不是把所有能力塞進同一個模型裡。

能力懸崖:企業用了多少 AI 的真正實力?

談到產業應用,Pineau 完全同意「能力懸崖」(capability overhang)的說法。她在 Cohere 的位置剛好能同時看到三件事:研究團隊在做什麼、模型能做到什麼、客戶實際用了多少。三者之間的落差大得驚人。

落差的原因有好幾層。首先是效率取捨。很多付費客戶要的是「夠好就行」的模型,不需要最強的。Cohere 會訓練大模型,但實際部署的往往是較小的版本,因為客戶要的是性價比。Pineau 說她常常跟客戶說「我們可以給你更多」,客戶回答「不用了,這樣就夠了。」

第二層是組織流程的不匹配。企業內部既有的系統和流程,並不是為 AI Agent 設計的。把 AI 插進去,有時候就像把一個新同事空降到團隊裡,你不知道這個人到底擅長什麼、不擅長什麼,需要時間磨合。

第三層是資訊的斷裂。AI Agent 已經接入了企業的各種內部系統,但往往還有大量的知識和資訊沒有被編碼、沒有被連接進來。如果能打通這些,AI 能做的事會多出很多。

她還觀察到一個現象:個人使用者跑在組織前面。企業的 AI 試點專案遲遲無法進入生產環境,但公司裡某個員工可能已經在用 Claude Code 把事情做完了。這跟社群媒體早期的狀況很像,年輕的實習生比資深員工更快掌握新工具,甚至接管了公司的行銷部門。

Cohere 的差異化策略:隱私、多語言、AI 主權

跟矽谷巨頭搶市場,Cohere 選了一條不同的路。Pineau 說 Cohere 的核心賭注是需要高度隱私和安全保證的企業 AI。很多企業,特別是金融機構,不想把敏感資料透過 API 送到外部。Cohere 提供的是可以部署在企業內部、搭配本地資料運作的 Agent 系統。

另一個差異化的重點是多語言能力。Cohere 很早就投入多語言模型研究,推出了開源的 Aya 系列模型,最廣的版本支援超過 100 種語言。以英文為中心的大型實驗室往往不把多語言放在優先順位,但一進入亞洲或歐洲市場,能在當地語言上達到頂尖水準的模型就變得非常有價值。

談到「AI 主權」,Pineau 提出了兩種理解方式。一種是企業想要擁有自己的模型,特別是金融機構在隱私需求驅動下,正大量投資自建 AI 能力。但人才缺口讓很多機構自建失敗,最後還是找 Cohere 這類公司合作。

另一種理解是策略上的穩健性。企業不想被單一供應商綁住,希望有備援方案。如果某個模型的 API 被切斷或漲價,他們希望能無縫切換到另一個。

開放科學的信仰者:想法關不住

聊到 AI 實驗室之間的競爭,Pineau 的觀點帶有濃厚的學術底色。她認為沒有哪家實驗室能拉開持久的領先,因為想法是關不住的。「人在公司之間跳來跳去,他們帶著想法走。就算程式碼留在原來的地方,一旦你看到了某個洞見,你就不可能假裝沒看到。」

這也是她多年來倡導開放科學的原因。想法自由流通,所有人進步得更快。技術開發者、規模化推動者、商業化執行者、監管者,往往是不同的人。圍繞 AI 會長出一個複雜的生態系統,這個過程才剛開始。

至於 Dario Amodei 對社群媒體出身的企業領導人做 AI 的批評,Pineau 沒有直接站隊。她的回應比較圓融但有核心觀點:沒有人什麼都懂,關鍵是你有沒有把多元的聲音帶進決策的房間裡。她自己就是從 Meta 這樣的社群媒體公司出來的研究者,她的經驗是,FAIR 團隊確實有一條從研究到領導層的暢通溝通管道。

我的觀察:對臺灣研究者和企業的啟示

Pineau 這場訪談值得聽的原因,是她同時站在學術和產業的交叉口,而且直接點名了三個「還沒有出現 Transformer 級別突破」的研究方向。對臺灣的 AI 研究者和企業來說,啟示不太一樣。

對有志投入 AI 研究的人來說,記憶、世界模型、階層式規劃這三個方向都值得關注。這些題目不像預訓練大模型那樣需要燒數十億美元的算力,更多是在架構設計和學習機制上尋找突破。特別是階層式規劃,涉及強化學習和機器人學的基礎能力,也許是想踏入研究領域的人可以深入探索的方向。

另外,Cohere 開源的 Aya 多語言模型系列也值得注意。在多語言 AI 的研究和應用上,非英語語系的研究者有天然的觀察優勢,這可能是一個值得投入的方向。

對企業來說,Pineau 描述的「能力懸崖」在臺灣恐怕更為明顯。她觀察到的三層落差,效率取捨、組織流程不匹配、資訊未被編碼,在臺灣的製造業和金融業應該都不陌生。更值得警惕的是她提到的那個現象:個人使用者跑在組織前面。如果公司裡已經有人在用 AI 工具把事情做完了,但組織層級的 AI 專案還在「試點階段」,那這家公司的管理層可能需要認真想想,瓶頸到底在技術,還是在自己。