AI 技術前沿 2025 年 1 月 15 日

Agent 不是更聰明的 Chatbot：被 Meta 20 億美元收購的 Manus，怎麼理解 AI Agent 的技術本質

AI Agent 和 Chatbot 到底有什麼不同？Manus 首席科學家季逸超在被 Meta 收購前的訪談中，從技術角度深入解析了這個問題。本文整理他對 Agent 架構、Token 消耗模式、Context Engineering 等核心概念的見解。

來源：張小珺商業訪談錄

本文整理自「張小珺商業訪談錄」第 128 集，錄製於 2025 年 12 月 1 日。訪談結束後不到一個月，Meta 宣布以超過 20 億美元收購 Manus。

2025 年底，Meta 以超過 20 億美元收購了 AI Agent 新創 Manus。這是 Meta 史上第三大收購案，僅次於 WhatsApp 和 Scale AI。

但「AI Agent」到底是什麼？它跟我們熟悉的 ChatGPT 這類聊天機器人有什麼不同？

Manus 的首席科學家季逸超在被收購前接受了一次深度訪談，花了不少篇幅解釋這件事。他的說法很技術，但也很清楚。對於正在開發 AI 應用、或是考慮導入 AI 工具的臺灣企業來說，這些概念值得理解。

從「兩個人對話」到「三方互動」

季逸超用一個很簡單的框架來區分 Agent 和 Chatbot。

Chatbot 是兩方互動：你問，它答。你再問，它再答。整個過程就是人和模型之間的對話，沒有別的了。

Agent 多了一個角色：環境。它不只是回答你的問題，還會去操作外部世界——讀檔案、瀏覽網頁、執行程式、呼叫 API。你給它一個任務，它會自己規劃步驟，一步一步做完。

「這個差異看起來很小，」季逸超說，「但它帶來的技術挑戰是完全不同的量級。」

怎麼說呢？

100 比 1 的 Token 消耗

最直接的差異是成本結構。

用 ChatGPT 聊天，輸入和輸出的 Token 比例大約是 3:1。你打一段問題，模型回一段答案，輸入通常比輸出長一些，但差距不大。

Agent 完全不是這樣。季逸超說，Manus 的 Token 消耗比例是 100:1，有時候甚至到 1000:1。

為什麼差這麼多？

「Agent 在執行任務的過程中，會不斷地觀察環境。你讀了一個網頁，那就是幾萬個 Token 的輸入；你看了一個程式的執行結果，又是幾千個 Token。但最後輸出給使用者的，可能就是一份報告、一個檔案。」

這意味著，做 Agent 產品和做 Chatbot 產品，財務模型完全不同。Chatbot 可以靠免費增值吸引大量使用者，再慢慢轉換付費；Agent 不行，因為每一次任務執行都是實打實的成本。這也是為什麼 Manus 從一開始就走企業訂閱制，而不是追求 DAU。

Context Engineering：比 Prompt Engineering 更難的事

過去兩年，很多人學會了「Prompt Engineering」——怎麼寫好一個提示詞，讓 AI 給出更好的回答。

但季逸超說，做 Agent 需要的是另一種能力：Context Engineering。

「Prompt Engineering 關心的是單次對話怎麼寫好。Context Engineering 關心的是整個上下文怎麼管理。」

Agent 執行任務時會累積大量資訊——讀過的網頁、執行過的程式、觀察到的結果。這些資訊如果全部塞進模型的 context window，很快就會超過限制。但如果隨便丟掉，又會遺失重要的脈絡。

季逸超提到幾個 Manus 在處理的技術問題：

壓縮感知：什麼時候該壓縮資訊、什麼時候不該？壓縮會丟失哪些細節？這需要模型自己判斷，不能靠寫死的規則。

檔案系統卸載：不是所有東西都要放在 context 裡。有些資訊可以先存到檔案系統，需要的時候再讀進來。「這就像人的記憶，你不會把所有讀過的書都記在腦子裡，你會記得大概在哪本書的哪個章節，需要的時候再去翻。」

狀態管理：複雜任務要拆成子任務，每個子任務執行完要記錄狀態，失敗了要能回滾重試。這些聽起來像軟體工程的基本功，但在 LLM 的框架下做好，需要很多創新。

「純血 Agent」vs「工作流 Agent」

訪談中，季逸超提到一個有趣的區分：他把 Agent 分成兩種路線。

一種是「工作流 Agent」。本質上是把任務分解成固定的步驟，每個步驟用 LLM 來執行。流程是人類預先設計好的，LLM 只是在每個節點做決策。這種做法比較好控制，也比較好 debug，但上限就是你設計的流程的上限。遇到設計者沒想到的情況，它就卡住了。

另一種是他說的「純血 Agent」。讓 LLM 自己決定怎麼拆解任務、用什麼工具、下一步做什麼。沒有預設的流程，完全靠模型的智能來規劃和執行。這種做法更靈活，理論上能處理任何任務，但也更難控制。

Manus 選的是後者。

「今天模型可能在某些情況下會犯蠢，但這是暫時的。模型進步的速度非常快，一年後可能就不會犯這些錯了。但如果你設計了一套固定流程，那套流程是不會自動變好的。」

這是一個很有意思的賭注：賭模型會持續變強，所以現在選擇更靈活的架構，等模型進步後就能自然受益。

觀察、思考、行動的循環

季逸超提到，Manus 的 Agent 採用的是「ReAct」框架——Reasoning + Acting 的縮寫。這是一種讓 LLM 交替進行推理和行動的方法。

基本運作模式是這樣：

模型先觀察環境的狀態——網頁內容、檔案內容、程式執行結果。然後根據觀察結果和任務目標，思考下一步要做什麼。接著執行決定的動作——點擊按鈕、寫檔案、呼叫 API。執行完再觀察結果，繼續思考下一步。

這個循環會一直跑，直到任務完成，或者模型判斷任務無法完成。

聽起來很像人類做事的方式：看一下情況，想一下該怎麼做，動手做，再看結果，再想下一步。差別是人類可以同時處理很多模糊的資訊，LLM 需要把所有東西都塞進 context window 裡。

下一步：主動性

訪談最後，季逸超談到他認為 AI Agent 的下一個進化方向：Proactiveness，主動性。

「現在的 Agent 都是被動的。你給它一個任務，它去執行。執行完就停下來，等你下一個任務。」

他認為未來的 Agent 應該是主動的。它知道你的目標是什麼，會自己去找機會、發現問題、提出建議。你不需要每次都告訴它做什麼，它自己會想。

「想像一個 Agent 能 7×24 小時地運作。不是在那邊等你下指令，而是一直在幫你做事、一直在觀察有沒有什麼可以改進的地方。」

這種轉變會帶來全新的商業模式。現在衡量軟體產品成功的指標是 DAU，但對於主動型 Agent，更重要的指標可能是「Agentic Hours」——Agent 為你工作了多少小時。

對臺灣開發者的意義

這些技術細節對臺灣的 AI 開發者來說，有幾個實際的意涵。

如果你在做 AI 產品，要搞清楚自己做的是 Chatbot 還是 Agent。兩者的技術挑戰和成本結構完全不同，不能用同一套思路去做。

如果你選擇做 Agent，Context Engineering 會是核心能力。怎麼管理上下文、怎麼壓縮資訊、怎麼做狀態管理，這些會比 Prompt Engineering 更重要。

還有一個值得注意的點：季逸超選擇不自建模型，而是快速整合最新的 API。這讓 Manus 能享受到 Claude、GPT 等模型的快速進步。如果你的 Agent 架構設計得好，模型進步就是你產品進步。

這不是說自建模型一定不對，而是要想清楚：你的競爭優勢到底在哪裡？是模型本身，還是上層的應用邏輯？

Manus 用 8 個月做到年收入 1 億美元、20 億美元被收購，某種程度上驗證了「不自建模型」這條路是可行的。當然，這不代表所有公司都該這樣做，但至少證明了這是一個合理的選擇。