AI 開發實戰 2026 年 2 月 9 日

當 AI 自己學會解決問題：OpenClaw 告訴我們 Coding Model 的能力被嚴重低估了

OpenClaw 創造者 Peter Steinberger 發現一件事：coding model 的創造性問題解決能力，遠超出寫程式的範疇。他的 AI agent 能在 9 秒內自主處理一個從未被教過的語音辨識任務，這揭示了 AI 能力的一個被忽略的面向。

來源： Y Combinator Startup Podcast

當 AI 自己學會解決問題：OpenClaw 告訴我們 Coding Model 的能力被嚴重低估了

本文整理自 Y Combinator Startup Podcast 2026 年 2 月播出的單集。

封面圖

九秒，解決一個沒人教過的問題

Peter Steinberger 在摩洛哥馬拉喀什的街上走著，隨手對 WhatsApp 發了一段語音訊息給他的 AI agent。發完之後他突然愣住了：等等，我根本沒做語音辨識功能。但十秒後，agent 回覆了。

他問它怎麼做到的。答案是一串令人咋舌的即興操作：收到一個沒有副檔名的檔案，檢查檔頭發現是 Opus 音訊格式，用 ffmpeg 轉成 wav，想用 Whisper 做語音辨識但發現本機沒裝，於是在電腦裡找到一組 OpenAI API key，直接用 Curl 呼叫 OpenAI 的語音辨識 API，拿到文字，回覆。全程九秒。

更厲害的是它沒選的那條路。它可以下載本機版的 Whisper 模型，但那要花好幾分鐘。它判斷 Steinberger 是個沒耐心的人（確實是），所以選了最快的方案。這不是「執行預設流程」，這是「理解情境然後做出最佳判斷」。

Steinberger 是 OpenClaw 的創造者，也是觸及近 10 億用戶的 PDF 工具公司 PSPDFKit 的創辦人。OpenClaw 這個開源個人 AI agent 在兩週內拿下超過 17 萬顆 GitHub 星星。但讓他真正被震撼到的不是 star 數字，而是這個語音辨識的瞬間。它揭示了一個多數人還沒意識到的事實：coding model 的能力，遠遠不只是寫程式。

寫程式其實是在做創造性問題解決

Steinberger 在訪談中提出了一個很有洞察力的觀察：coding model 之所以能處理語音辨識這種「非程式設計」的任務，是因為寫程式的本質就是創造性問題解決。而創造性問題解決是一種抽象能力，它可以映射到現實世界的幾乎任何任務上。

想想看一個工程師在寫程式時做的事：面對一個需求，分析現有資源，評估多種可能的解法，權衡取捨（速度、可靠性、複雜度），然後選擇最適合當下情境的方案。OpenClaw 處理語音訊息時做的事一模一樣：面對一個未知格式的檔案，掃描可用工具（ffmpeg、Whisper、OpenAI API），評估每條路徑的成本（本機 Whisper 太慢、API 呼叫最快），然後執行。

這個觀察的意義在於，我們過去可能一直在低估 coding model 的通用能力。業界的注意力集中在「推理」和「知識」這些維度上，但 coding model 在訓練過程中學到的那種「拆解問題 → 搜尋資源 → 組合方案 → 執行驗證」的能力迴路，其實是一種非常強大的通用智能。它不只能寫程式，它能做任何可以被分解為「輸入 → 處理 → 輸出」的任務。

本機運行：能力上限的根本差異

要理解這種能力為什麼在 OpenClaw 上特別突顯，需要理解一個架構層面的差異。ChatGPT、Claude 這些服務跑在雲端，它們能做的事被嚴格限制在一個沙盒裡。你可以跟它們對話、請它們分析文字、產生內容，但它們碰不到你的檔案系統，也執行不了你電腦上的程式。

OpenClaw 跑在你自己的電腦上。這意味著它擁有和你一樣的系統權限。它能讀寫檔案、執行 shell 指令、安裝軟體、呼叫 API、操作瀏覽器。Steinberger 用一個很精準的表述概括了這個差異：機器能做任何你能用機器做的事。

這不是一個微小的差距。雲端 AI 就像一個被關在隔音室裡的天才，你只能透過一個小窗口跟它傳紙條。本機 AI 則像是一個直接坐在你電腦前的助手，它能看到你的螢幕、操作你的鍵盤、瀏覽你的檔案。同樣的「大腦」，給它完全不同的「四肢」和「感官」，產出的結果天差地別。

那個語音辨識的故事之所以成立，正是因為 agent 能直接存取本機的 ffmpeg、能掃描磁碟上的 API key、能用 Curl 發出 HTTP 請求。如果同樣的 AI 跑在雲端，它連知道你電腦上裝了什麼軟體的能力都沒有。

不用 MCP，用 CLI：給 AI 人類的工具

OpenClaw 在技術社群引發討論的另一個點，是它完全跳過了 MCP（Model Context Protocol）。MCP 是 Anthropic 推出的一套標準，讓 AI 模型能夠呼叫外部工具和服務。它在 AI 開發者圈幾乎成了標配，Claude Code 和 Codex 都內建了 MCP 支援。

但 Steinberger 沒有在 OpenClaw 裡做 MCP。他做了一個叫 Magporter 的工具，可以把任何 MCP 轉換成標準的 CLI 命令列工具。他的邏輯很直接：AI 已經非常擅長使用 Unix 命令了，為什麼要發明一套全新的協定來做同樣的事？

這個選擇帶來了幾個實際的好處。首先，CLI 工具可以即時載入，不需要重啟整個 agent 系統。Steinberger 指出，在 Codex 或 Claude Code 裡加入新的 MCP 工具，你得重啟整個程式。但 CLI 隨叫隨到。其次，CLI 的數量幾乎是無限的，而 MCP 工具的數量受限於有人專門為它開發適配器。最後，CLI 本來就是人類開發者習慣使用的工具，不需要為 AI 另外發明輪子。

Steinberger 在訪談中說了一句讓人印象深刻的話：沒有正常人會手動呼叫 MCP，人類就是用 CLI。他的意思是，如果一個工具人類自己都不想用，為什麼要為 AI 專門做一個？直接給 AI 人類已經在用的工具，它一樣能用得很好。

這個設計哲學其實反映了一個更深層的思考。很多 AI 工具開發者的心態是「我們需要為 AI 打造專屬的工具和協定」，但 Steinberger 的做法是「直接把人類的工具給 AI，它自己會想辦法」。而馬拉喀什的語音辨識故事正好證明了這一點：你不需要為 AI 預想每一個使用場景，你只需要給它足夠的工具和權限，它會自己找到解法。

十個 Codex 並行：一個人的軍團

Steinberger 的日常開發方式本身就是一場實驗。當多數開發者使用 Claude Code 時，他選擇用 OpenAI 的 Codex。他說 Codex 在動手之前會先掃過更多檔案，不需要花太多力氣去引導它的注意力。但 Codex 有一個明顯的缺點：很慢。

他的解決方案很暴力：同時開十個 Codex 實例。六個放在主螢幕上，兩個放在左邊的螢幕，兩個放在右邊。每個實例處理不同的任務，他在它們之間來回切換，檢查進度、給指示、合併結果。這種工作方式的心智負擔極高，所以他在其他所有地方都追求極致的簡化。

比如他不用 git worktree。Worktree 是 git 的進階功能，讓你在同一個 repo 裡同時 checkout 多個分支。很多使用 AI coding 工具的開發者都推薦用它來管理並行開發。但 Steinberger 覺得太複雜了。他直接複製多份 repo，每一份都留在 main branch 上。不用想分支怎麼命名、不用擔心 worktree 的種種限制、不用處理分支衝突。在他的腦中，main 永遠是可以出貨的狀態。

他甚至說自己大部分時候不看 code。code 就在終端機裡飛過去，他看的是結果，不是過程。只有碰到棘手的 bug 才會停下來仔細檢視。這聽起來很瘋狂，但他一月份推了超過 6,600 次 commit，而 OpenClaw 的功能完整度和穩定度在開源社群裡是有目共睹的。

Agent 時代的開發者該學什麼

Steinberger 的故事帶出了一個值得所有開發者深思的問題：當 AI 能自己寫 code、自己解決問題、自己做創造性的技術決策時，開發者的價值在哪裡？

從 OpenClaw 的案例來看，答案可能是「品味」和「判斷力」。Steinberger 沒有寫 OpenClaw 的每一行程式碼，但他決定了它應該是什麼樣子：跑在本機而非雲端、像朋友而非工具、用 CLI 而非 MCP、有靈魂而非只有功能。這些都是設計決策，不是技術問題。AI 能寫出很好的 code 來實現任何一個方案，但它不會自己決定哪個方案是對的。

另一個啟示是關於工具鏈的選擇。Steinberger 的整套工作流程都是反主流的：用 Codex 不用 Claude Code，不用 worktree，不用 MCP，不看 code。但他的產出效率和品質都極高。這說明在 AI 時代，最重要的不是用什麼工具，而是你對問題本身的理解有多深。工具會變、模型會更新、框架會淘汰，但那種「拆解問題 → 設計方案 → 驗證結果」的核心能力是不會過時的。

OpenClaw 在兩週內從零到 17 萬顆星星，本身就是 coding model 能力的最佳廣告。它告訴我們，AI 的能力邊界不在模型本身，而在我們給它多少自由去發揮。當你把 AI 從沙盒裡放出來，給它你電腦上所有的工具和資料，它能做到的事會超出你的想像。九秒搞定語音辨識只是一個開始。