AI 產業動態 2026 年 1 月 20 日

CCCD 框架：不讓 AI 產品失控的持續校準方法

OpenAI Codex 負責人與 AI 顧問這對夫妻檔，提出 CCCD 框架（Continuous Calibration Continuous Development），教你如何在不失去使用者信任的前提下，逐步提升 AI 產品的自主性。

來源： Lenny's Podcast

本文整理自 Lenny’s Podcast 2026 年 1 月播出的單集，為系列第三篇。

來賓背景

這集的兩位來賓是夫妻，也是 AI 產品領域最有實戰經驗的組合之一：

Kiriti Badam：OpenAI Codex 產品負責人，曾在 Google 打造 AI/ML 基礎設施十年
Aishwarya Reganti：前 Alexa、Microsoft AI 研究員，現為企業 AI 轉型顧問

兩人合計參與 50+ AI 產品部署。這個 CCCD 框架，就是他們從無數失敗和成功案例中提煉出來的方法論。

為什麼需要 CCCD 框架？

Aishwarya 分享了開發這個框架的背景。

她曾經為客戶打造一個全自動客服 agent。結果上線後，各種意料之外的問題不斷冒出來，團隊只能瘋狂 hotfix。問題修不完，最後只能關掉產品。

Air Canada 也發生過類似事件：他們的客服 agent 幻覺出一個不存在的退款政策，客戶照著做了，公司被迫承認這個政策——因為法律站在客戶那邊。

這些案例讓他們思考：如何在不失去使用者信任、不讓 AI 做出危險決策的前提下，逐步提升 AI 的自主性？

答案就是 CCCD 框架。

CCCD 框架是什麼？

CCCD 全名是 Continuous Calibration Continuous Development（持續校準、持續開發），名稱致敬軟體工程的 CI/CD。

框架分為兩個循環：

右半圈：持續開發（Continuous Development）

界定能力範圍並整理資料：建立一個資料集，定義預期的輸入和輸出應該長什麼樣子。這是很好的練習，因為你常會發現團隊成員對「產品該怎麼運作」根本沒有共識。
建立應用程式：開始實作。
設計評估指標：注意，Aishwarya 刻意用「evaluation metrics」而非「evals」，因為評估是一個過程，指標是過程中關注的維度。
部署並執行評估。

左半圈：持續校準（Continuous Calibration）

分析行為：觀察系統在真實環境中的表現，尤其是那些你一開始沒預料到的使用模式。
辨識錯誤模式：有些錯誤只是偶發，修掉就好（例如工具定義寫錯）。有些則是系統性問題，需要建立新的評估指標來追蹤。
應用修正：修 bug、調整 prompt、改工具配置。
設計新的評估指標：針對新發現的問題類型。

實例：客服 Agent 的三階段演進

Aishwarya 用客服 agent 舉例：

V1：路由（Routing）

目標：讓 agent 能正確分類工單，送到對應部門。

這看起來簡單，但在企業環境往往很複雜。Aishwarya 遇過零售公司的分類系統極度混亂——同一層級同時有「鞋子」「女鞋」「男鞋」，另一個地方又有「for women」「for men」。人類知道哪些是過時的死節點，但 AI 沒有這個脈絡。

這個階段的好處：即使 agent 判斷錯誤，人類可以輕易介入修正。 同時，你也在過程中清理資料問題。

V2：副駕駛（Co-pilot）

目標：agent 根據 SOP 產生回覆草稿，由人類審核後送出。

這個階段你會記錄人類的行為：草稿被採用了多少？哪些被改掉了？哪些被刪掉了？這些資料就是免費的錯誤分析，可以回饋到下一輪迭代。

V3：端到端解決（End-to-End Resolution）

目標：agent 可以直接解決工單，包括退款、提交功能需求等。

只有當 V2 的草稿大多數時候都被原封不動採用時，才應該進到這個階段。

什麼時候該進入下一階段？

主持人 Lenny 問了這個關鍵問題。

Aishwarya 的回答：沒有固定規則，但核心原則是「最小化驚訝」。

如果你每一兩天校準一次，發現使用者行為很一致、沒有新的資料分布模式出現，那代表你從這個階段能學到的東西已經很少了——可以考慮進入下一階段。

但她也提醒：有些事件會徹底打亂你的校準。例如：

模型更換：GPT-4o 要被棄用了，你必須換成 GPT-5，而新模型的特性可能完全不同
使用者行為演變：使用者發現你的系統能做某件事後，會開始嘗試更複雜的需求

她舉了一個銀行核保系統的例子。前三四個月，系統表現很好，核保員回報省下大量時間。但之後，核保員開始丟出更複雜的問題：「對於這種類型的案例，以前的核保員怎麼處理的？」——這完全是系統設計之外的需求。

Evals 的迷思

這集也深入討論了「evals」這個熱門話題。

Kiriti 觀察到，「evals」這個詞已經被過度使用，不同人講的根本是不同的東西：

資料標註公司說的 evals：專家在做錯誤分析
PM 說的 evals：產品規格的新形式
工程師說的 evals：LLM judge 或自動化測試

Aishwarya 則指出一個常見的錯誤二分法：「evals 能解決一切」vs「生產監控能解決一切」。

事實是兩者都需要：

Evals 能捕捉你已經知道會出問題的情境
生產監控 能捕捉你沒預料到的新模式

Kiriti 也分享了 Codex 團隊的做法：他們有核心功能的 evals，確保改動不會破壞基本功能。但對於 coding agent 這種高度客製化的產品，不可能為所有使用情境建立評估資料集，所以他們也非常仰賴客戶回饋、社群討論、A/B 測試。

Claude Code 的負責人 Boris 曾說他們「不做 evals，靠 vibes」。Kiriti 的看法是：沒有人能說「我有一組 evals 可以賭上身家，其他都不用管」。

小結

CCCD 框架的核心理念：

行為校準是關鍵：你無法預測 AI 系統在真實環境會怎麼運作，必須持續觀察和調整
從低代理開始：限制 AI 的決策範圍，確保人類可以輕易介入
逐步增加自主性：隨著信任建立，逐步給予更多自主權
Evals 和生產監控都需要：兩者互補，缺一不可

這個框架不是萬靈丹，但它提供了一個降低風險的結構化方法。

本系列共四篇。下一篇將探討「痛苦是新護城河」——為什麼 AI 時代的競爭優勢來自實作經驗。