AI 技術前沿

Agent 不是更聰明的 Chatbot:被 Meta 20 億美元收購的 Manus,怎麼理解 AI Agent 的技術本質

AI Agent 和 Chatbot 到底有什麼不同?Manus 首席科學家季逸超在被 Meta 收購前的訪談中,從技術角度深入解析了這個問題。本文整理他對 Agent 架構、Token 消耗模式、Context Engineering 等核心概念的見解。

來源: 張小珺商業訪談錄

本文整理自「張小珺商業訪談錄」第 128 集,錄製於 2025 年 12 月 1 日。訪談結束後不到一個月,Meta 宣布以超過 20 億美元收購 Manus。


2025 年底,Meta 以超過 20 億美元收購了 AI Agent 新創 Manus。這是 Meta 史上第三大收購案,僅次於 WhatsApp 和 Scale AI。

但「AI Agent」到底是什麼?它跟我們熟悉的 ChatGPT 這類聊天機器人有什麼不同?

Manus 的首席科學家季逸超在被收購前接受了一次深度訪談,花了不少篇幅解釋這件事。他的說法很技術,但也很清楚。對於正在開發 AI 應用、或是考慮導入 AI 工具的臺灣企業來說,這些概念值得理解。


從「兩個人對話」到「三方互動」

季逸超用一個很簡單的框架來區分 Agent 和 Chatbot。

Chatbot 是兩方互動:你問,它答。你再問,它再答。整個過程就是人和模型之間的對話,沒有別的了。

Agent 多了一個角色:環境。它不只是回答你的問題,還會去操作外部世界——讀檔案、瀏覽網頁、執行程式、呼叫 API。你給它一個任務,它會自己規劃步驟,一步一步做完。

「這個差異看起來很小,」季逸超說,「但它帶來的技術挑戰是完全不同的量級。」

怎麼說呢?


100 比 1 的 Token 消耗

最直接的差異是成本結構。

用 ChatGPT 聊天,輸入和輸出的 Token 比例大約是 3:1。你打一段問題,模型回一段答案,輸入通常比輸出長一些,但差距不大。

Agent 完全不是這樣。季逸超說,Manus 的 Token 消耗比例是 100:1,有時候甚至到 1000:1。

為什麼差這麼多?

「Agent 在執行任務的過程中,會不斷地觀察環境。你讀了一個網頁,那就是幾萬個 Token 的輸入;你看了一個程式的執行結果,又是幾千個 Token。但最後輸出給使用者的,可能就是一份報告、一個檔案。」

這意味著,做 Agent 產品和做 Chatbot 產品,財務模型完全不同。Chatbot 可以靠免費增值吸引大量使用者,再慢慢轉換付費;Agent 不行,因為每一次任務執行都是實打實的成本。這也是為什麼 Manus 從一開始就走企業訂閱制,而不是追求 DAU。


Context Engineering:比 Prompt Engineering 更難的事

過去兩年,很多人學會了「Prompt Engineering」——怎麼寫好一個提示詞,讓 AI 給出更好的回答。

但季逸超說,做 Agent 需要的是另一種能力:Context Engineering。

「Prompt Engineering 關心的是單次對話怎麼寫好。Context Engineering 關心的是整個上下文怎麼管理。」

Agent 執行任務時會累積大量資訊——讀過的網頁、執行過的程式、觀察到的結果。這些資訊如果全部塞進模型的 context window,很快就會超過限制。但如果隨便丟掉,又會遺失重要的脈絡。

季逸超提到幾個 Manus 在處理的技術問題:

壓縮感知:什麼時候該壓縮資訊、什麼時候不該?壓縮會丟失哪些細節?這需要模型自己判斷,不能靠寫死的規則。

檔案系統卸載:不是所有東西都要放在 context 裡。有些資訊可以先存到檔案系統,需要的時候再讀進來。「這就像人的記憶,你不會把所有讀過的書都記在腦子裡,你會記得大概在哪本書的哪個章節,需要的時候再去翻。」

狀態管理:複雜任務要拆成子任務,每個子任務執行完要記錄狀態,失敗了要能回滾重試。這些聽起來像軟體工程的基本功,但在 LLM 的框架下做好,需要很多創新。


「純血 Agent」vs「工作流 Agent」

訪談中,季逸超提到一個有趣的區分:他把 Agent 分成兩種路線。

一種是「工作流 Agent」。本質上是把任務分解成固定的步驟,每個步驟用 LLM 來執行。流程是人類預先設計好的,LLM 只是在每個節點做決策。這種做法比較好控制,也比較好 debug,但上限就是你設計的流程的上限。遇到設計者沒想到的情況,它就卡住了。

另一種是他說的「純血 Agent」。讓 LLM 自己決定怎麼拆解任務、用什麼工具、下一步做什麼。沒有預設的流程,完全靠模型的智能來規劃和執行。這種做法更靈活,理論上能處理任何任務,但也更難控制。

Manus 選的是後者。

「今天模型可能在某些情況下會犯蠢,但這是暫時的。模型進步的速度非常快,一年後可能就不會犯這些錯了。但如果你設計了一套固定流程,那套流程是不會自動變好的。」

這是一個很有意思的賭注:賭模型會持續變強,所以現在選擇更靈活的架構,等模型進步後就能自然受益。


觀察、思考、行動的循環

季逸超提到,Manus 的 Agent 採用的是「ReAct」框架——Reasoning + Acting 的縮寫。這是一種讓 LLM 交替進行推理和行動的方法。

基本運作模式是這樣:

模型先觀察環境的狀態——網頁內容、檔案內容、程式執行結果。然後根據觀察結果和任務目標,思考下一步要做什麼。接著執行決定的動作——點擊按鈕、寫檔案、呼叫 API。執行完再觀察結果,繼續思考下一步。

這個循環會一直跑,直到任務完成,或者模型判斷任務無法完成。

聽起來很像人類做事的方式:看一下情況,想一下該怎麼做,動手做,再看結果,再想下一步。差別是人類可以同時處理很多模糊的資訊,LLM 需要把所有東西都塞進 context window 裡。


下一步:主動性

訪談最後,季逸超談到他認為 AI Agent 的下一個進化方向:Proactiveness,主動性。

「現在的 Agent 都是被動的。你給它一個任務,它去執行。執行完就停下來,等你下一個任務。」

他認為未來的 Agent 應該是主動的。它知道你的目標是什麼,會自己去找機會、發現問題、提出建議。你不需要每次都告訴它做什麼,它自己會想。

「想像一個 Agent 能 7×24 小時地運作。不是在那邊等你下指令,而是一直在幫你做事、一直在觀察有沒有什麼可以改進的地方。」

這種轉變會帶來全新的商業模式。現在衡量軟體產品成功的指標是 DAU,但對於主動型 Agent,更重要的指標可能是「Agentic Hours」——Agent 為你工作了多少小時。


對臺灣開發者的意義

這些技術細節對臺灣的 AI 開發者來說,有幾個實際的意涵。

如果你在做 AI 產品,要搞清楚自己做的是 Chatbot 還是 Agent。兩者的技術挑戰和成本結構完全不同,不能用同一套思路去做。

如果你選擇做 Agent,Context Engineering 會是核心能力。怎麼管理上下文、怎麼壓縮資訊、怎麼做狀態管理,這些會比 Prompt Engineering 更重要。

還有一個值得注意的點:季逸超選擇不自建模型,而是快速整合最新的 API。這讓 Manus 能享受到 Claude、GPT 等模型的快速進步。如果你的 Agent 架構設計得好,模型進步就是你產品進步。

這不是說自建模型一定不對,而是要想清楚:你的競爭優勢到底在哪裡?是模型本身,還是上層的應用邏輯?

Manus 用 8 個月做到年收入 1 億美元、20 億美元被收購,某種程度上驗證了「不自建模型」這條路是可行的。當然,這不代表所有公司都該這樣做,但至少證明了這是一個合理的選擇。