你怎麼問,AI 就怎麼答:Anthropic 經濟指數報告揭示的對話本質
Anthropic 發布第四份經濟指數報告,分析百萬筆 Claude 對話紀錄後發現:使用者提問的教育程度與 AI 回覆的教育程度高度相關(r > 0.92)。這份報告不只談 AI 的生產力影響,更揭示了一個被忽略的關鍵:與 AI 對話的品質,取決於人類自身的能力。

本文整理自 Anthropic 於 2026 年 1 月 15 日發布的第四份經濟指數報告(Economic Index Report: Economic Primitives)。建議讀者直接閱讀原始報告以獲得完整數據與圖表。
一份讓我重新思考「學 AI」這件事的報告
當多數人還在爭論 AI 會不會取代工作、ChatGPT 和 Claude 誰比較強、下個月又會有什麼新模型發布的時候,Anthropic 悄悄做了一件更根本的事:他們認真分析了人們到底怎麼使用 AI。
這份在 2026 年 1 月 15 日發布的第四版經濟指數報告,基於 2025 年 11 月超過一百萬筆 Claude.ai 對話和一百萬筆企業 API 調用紀錄,引入了五個全新的「經濟原語」(Economic Primitives)來衡量 AI 的使用方式。這些原語涵蓋任務複雜度、人類與 AI 技能水準、使用情境、AI 自主性,以及任務成功率。
但真正讓我停下來思考的,不是那些生產力數字或職業曝險分析。而是報告中一個看似簡單卻極為深刻的發現:使用者提問所需的教育程度,與 AI 回覆所需的教育程度,呈現近乎完美的正相關。在國家層級,這個相關係數高達 0.925;在美國各州層級,同樣達到 0.928。
換句話說,你怎麼問,AI 就怎麼答。
這個發現的意義遠超過統計數字本身。它暗示著一個許多人不願面對的現實:AI 並不是一個能夠自動「拉平」能力差距的神奇工具。相反地,它可能正在放大既有的差異。那些本來就善於思考、善於表達、善於拆解問題的人,能從 AI 得到更精緻的回應;而那些提問能力有限的人,得到的回應品質也相應受限。
經濟原語:理解 AI 使用的五個維度
要理解這份報告的核心洞見,必須先認識 Anthropic 所定義的五個經濟原語。這些原語並非憑空設計,而是根據該公司先前的生產力研究、外部學者的回饋,以及 AI 經濟影響相關文獻所發展出的框架。
第一個原語是任務複雜度。Anthropic 透過讓 Claude 估算「一個人類獨自完成這項任務需要多少時間」以及「人類與 AI 協作完成需要多少時間」來衡量任務的難度。在 Claude.ai 的對話中,平均任務若由人類獨自完成需要 3.1 小時,但與 AI 協作只需約 15 分鐘。這個差距本身就說明了 AI 的加速效應,但更有趣的是,這個加速效應在不同類型的任務上並不均等。
第二個原語是人類與 AI 技能。報告透過估算「理解使用者提問所需的教育年數」和「理解 AI 回覆所需的教育年數」來衡量對話雙方的能力水準。全球平均而言,理解使用者提問需要 12.2 年的教育程度,而理解 AI 回覆同樣需要 12.2 年。這個對稱性本身就很有意思:Claude 並沒有刻意「降級」或「升級」自己的回覆程度,而是動態地配合使用者的輸入水準。
第三個原語是使用情境。Claude.ai 的使用有 46% 屬於工作相關,19% 用於課業,35% 屬於個人用途。但這個比例在不同國家和地區之間存在顯著差異。低收入國家的使用者更常將 Claude 用於課業學習,而高收入國家則有更多元的個人用途,這反映出一個簡單的採用曲線故事:在採用率較低的地區,使用者往往是有特定高價值應用的技術人員或學生;而在成熟市場,使用情境則更加分散。
第四個原語是 AI 自主性。這衡量的是使用者在多大程度上將決策權委託給 Claude。報告使用 1 到 5 的量表,全球平均落在 3.4。值得注意的是,這個指標與先前報告中的「自動化 vs 增強」分類不同。舉例來說,「把這段話翻譯成法文」是高度自動化(指令式、幾乎沒有來回)但低自主性(任務本身不需要 Claude 做太多決策)的任務。
第五個原語是任務成功率。這或許是最關鍵的指標。Claude.ai 的整體任務成功率為 67%,而 API 則只有 49%。這個差距可能反映了多輪對話的優勢:使用者可以在過程中澄清、修正、迭代,逐步逼近想要的結果。而 API 的單次輸入輸出模式則沒有這樣的容錯空間。
任務地平線:一個被忽略的關鍵指標
近期 AI 評測領域有一個愈來愈受重視的概念叫做「任務地平線」(Task Horizons)。簡單來說,就是模型能夠可靠完成的任務最長能持續多久。METR 等機構的研究發現,隨著任務時間拉長,AI 的成功率會顯著下降,但每一代新模型都在將這條曲線往外推。
Anthropic 在這份報告中首次用真實使用數據來呈現這個現象。他們發現,在 API 調用中,任務成功率從不到一小時的任務約 60%,下降到超過五小時任務的約 45%。線性外推之下,API 達到 50% 成功率的任務時長約在 3.5 小時左右。
但 Claude.ai 的對話呈現完全不同的圖像。成功率隨任務時長的下降速度遠比 API 緩慢,線性外推之下,要到約 19 小時的任務才會降到 50% 成功率。這個差距極為驚人,幾乎是五倍的差異。
報告推測,這可能是因為多輪對話有效地將複雜任務拆解成較小的步驟,每一輪都提供了修正軌道的機會。這個發現對於如何設計 AI 工作流程有重要啟示:與其追求一次到位的完美輸出,不如建立允許迭代、允許澄清、允許試錯的對話流程。
但報告也謹慎地指出,這裡存在選擇偏誤。使用者會自己判斷哪些任務適合交給 AI,而避開那些預期會失敗的任務。這意味著觀測到的成功率可能高估了 AI 對所有潛在任務的真實能力。API 使用者選擇適合自動化的任務,Claude.ai 使用者選擇適合迭代的任務,兩邊的選擇邏輯不同,直接比較需要謹慎。
生產力的重新估算:從 1.8% 降到 1.0%
在先前的研究中,Anthropic 估算 AI 的廣泛採用可能讓美國勞動生產力每年成長 1.8 個百分點,持續十年。這是一個相當樂觀的數字,意味著 AI 可能帶來類似 1990 年代末網路革命的生產力紅利。
但當把任務成功率納入考量後,這個數字明顯下修。如果將任務層級的時間節省乘以該任務的成功率再做加總,基於 Claude.ai 數據的估算從 1.8% 降到 1.2%,基於 API 數據的估算則降到 1.0%。
報告進一步考慮了任務互補性的問題。在許多工作中,不同任務之間並非完全可替代。一位教師可以用 AI 更快地準備教案,但這不會減少她需要花在課堂上與學生互動的時間。如果某些關鍵任務無法被加速,它們就會成為整體生產力的瓶頸。
報告使用恆定替代彈性(CES)模型來模擬這種情況。當任務之間是互補關係(替代彈性小於 1)時,生產力效益會被瓶頸任務大幅壓縮。在替代彈性為 0.5 的情境下,再加上成功率調整,API 數據暗示的年生產力成長只剩 0.6 個百分點。
這些數字的下修並非要否定 AI 的價值。即使是每年 1.0 個百分點的持續成長,累積十年也是相當可觀的經濟效益,足以讓生產力成長率回到上世紀末的水準。但它們確實提醒我們,從「AI 能做什麼」到「AI 真正能帶來什麼」之間,存在著不小的落差。
去技能化與升技能化:一體兩面的故事
報告中另一個值得深思的分析是關於「去技能化」(Deskilling)與「升技能化」(Upskilling)的討論。研究團隊試圖回答一個問題:如果 AI 接管了某些任務,剩下給人類的工作會變得更需要技能,還是更不需要技能?
他們首先為每個任務估算了所需的教育程度。由於美國勞工統計局的 O*NET 資料庫只有職業層級的教育需求,沒有任務層級的數據,研究團隊訓練了一個模型,用任務描述的語義嵌入來預測教育年數。這樣一來,即使是教育需求較低的職業,其中某些「看起來像」高教育職業任務的工作內容,也會被標記為高技能任務。
分析結果顯示,Claude 傾向被用於需要較高教育程度的任務。經濟體中所有任務的平均預測教育程度是 13.2 年,但出現在 Claude 使用數據中的任務平均是 14.4 年,大約相當於副學士學位的水準。這與先前報告中白領職業使用率較高的發現一致。
如果從經濟體中移除那些 AI 能夠處理的任務,整體的淨效應是去技能化:剩下給人類的任務,平均教育需求會下降。但這個效應在不同職業之間並不均等。
以技術寫作人員為例,AI 接管的是「分析特定領域的發展以判斷修訂需求」(預測需要 18.7 年教育)和「審閱已發布材料並建議修訂」(16.4 年)這類高技能任務,留下的是「繪製示意圖」(13.6 年)和「觀察生產與實驗活動」(13.5 年)等較低技能的工作。旅行社人員也經歷類似的去技能化,AI 處理的是行程規劃和費用計算,剩下的是開票和收款。
但房地產經理人則經歷了相反的過程。AI 接管的是例行性的行政任務如維護銷售紀錄和市場租金比較,留下的是需要更高專業判斷和人際互動的工作,如貸款談判和董事會溝通。這些工作難以自動化,反而因為其他任務被 AI 處理而相對升值。
報告謹慎地指出,這些預測是基於當前的 Claude 使用模式,而這些模式會隨著模型能力進步和使用者發現新應用而改變。今天經歷去技能化的職業,未來可能因為 AI 開始處理不同類型的任務而轉向升技能化,反之亦然。
地理差異背後的結構性因素
報告的另一個重要貢獻是呈現 AI 使用的地理分布差異。Anthropic 使用「AI 使用指數」(AUI)來衡量各地區相對於其工作年齡人口的 Claude 使用強度。AUI 大於 1 表示使用率高於人口比例預期,小於 1 則反之。
全球層面,使用強度與人均 GDP 高度相關。人均 GDP 每增加 1%,Claude 使用率約增加 0.7%。這個關係在國家層級和美國州層級都成立。但其他原語與使用強度的關係在兩個層級之間存在差異。在國家層級,高使用率與較短任務和較低 AI 自主性相關;在州層級,這些關係則不顯著,但工作用途的比例與使用率正相關。
更有趣的是使用情境的差異。低收入國家的使用者更常將 Claude 用於課業,而高收入國家則有更高比例的個人用途。工作用途在各收入水準都佔主導,但個人用途似乎是採用成熟度的指標:當 AI 從專業工具擴散成為日常輔助,使用情境就會多元化。
報告還發現,高收入、高使用率的國家傾向以「增強」模式使用 Claude,也就是把 AI 當作協作者而非獨立執行者。這與先前報告的發現一致,暗示著更成熟的使用者可能發展出更精緻的人機協作模式,而非單純地將任務外包給 AI。
在美國國內,使用率的差異主要由勞動力組成解釋。那些擁有更多電腦與數學職業從業者的州,使用率系統性地更高。華盛頓特區、維吉尼亞和華盛頓州位居前列。這個發現與全球 Claude 使用仍高度集中於編程相關任務的現象一致。
但報告也發現了快速收斂的跡象。比較 2025 年 8 月和 11 月的數據,低使用率的州相對成長較快。如果這個趨勢持續,美國各州的人均使用率可能在二到五年內達到均等,這個擴散速度大約是 20 世紀重要技術的十倍。當然,這個估計有相當的不確定性,因為只基於三個月的數據。
我的觀察一:對話能力決定 AI 天花板
回到報告中那個讓我印象最深的發現:使用者提問教育程度與 AI 回覆教育程度的高度相關。這個發現觸及了一個 AI 時代的核心悖論。
我們常聽到的敘事是 AI 將成為「偉大的均衡器」,讓每個人都能取用過去只有專家才有的知識和能力。在某種程度上這是真的:一個沒有法律背景的人可以請 Claude 解釋合約條款,一個沒有程式經驗的人可以讓 AI 幫忙寫簡單的腳本。
但 Anthropic 的數據顯示,這種均衡效應有其極限。當你能夠清晰地定義問題、提供充分的脈絡、用精確的語言描述需求時,AI 的回應會相應地更加精緻和專業。反之,如果你的提問本身就模糊籠統,AI 的回應也會相應地泛泛而談。
這不是 Claude 的設計缺陷,而是語言模型運作的本質。模型被訓練成根據輸入產生合適的輸出,而「合適」的判斷很大程度上來自輸入本身的特徵。一個用學術語言框架的問題會得到學術風格的回答,一個用口語化方式提出的問題會得到更通俗的回應。
這意味著,在 AI 時代,「對話能力」成為一種新的關鍵技能。這裡說的不是「下 prompt」的技巧,不是那種「在句子開頭加上『你是一個專業的某某專家』」之類的套路。而是更根本的能力:清晰思考的能力、準確表達的能力、理解自己真正需要什麼的能力、以及根據回饋調整方向的能力。
這些能力不是透過學習「AI 工具操作」就能獲得的。它們需要長期的訓練,需要大量的閱讀和寫作實踐,需要在不同情境下反覆練習表達和溝通。諷刺的是,這些恰恰是傳統教育一直試圖培養的核心素養。
我的觀察二:大家忙著學功能,卻忘了學對話
現在市面上有無數的「AI 課程」,從免費的 YouTube 教學到動輒數萬元的線上課程。這些課程教你如何使用 ChatGPT、如何操作 Midjourney、如何設定各種 AI 工具的參數。有些課程專注於特定應用場景,像是用 AI 寫文案、用 AI 做簡報、用 AI 處理數據。
這些課程都有其價值,能幫助學習者快速上手特定工具。但如果 Anthropic 的發現是正確的,那麼這種「功能導向」的學習可能只觸及表面。
問題在於:多數人學的是「怎麼下 prompt」,而不是「怎麼對話」。
下 prompt 是一種技術操作,有固定的格式、可以被模仿的範本、能夠速成的技巧。而對話則是一種能力,需要理解對方(無論是人還是 AI)的特性、需要在互動中即時調整、需要從回饋中學習和改進。
報告中提到,Claude.ai 的任務成功率遠高於 API(67% vs 49%),其中一個可能原因是多輪對話允許使用者在過程中澄清和修正。但這個優勢的前提是使用者有能力進行有效的多輪對話,能夠判斷回應是否符合需求,能夠提出精確的追問,能夠引導對話走向想要的方向。
這種對話能力,不是學習「AI 工具」能夠培養的。它需要更基礎的訓練:邏輯思考、結構化表達、批判性閱讀、有效溝通。這些技能在 AI 出現之前就很重要,在 AI 時代只會變得更重要,因為你與 AI 對話的品質,直接決定了你能從 AI 獲得多少價值。
也許最諷刺的是,那些花大錢學「AI 技巧」的人,可能不如那些持續精進閱讀寫作能力的人更能有效運用 AI。因為前者學到的是會過時的操作方法,後者培養的是不會過時的基礎能力。
我的觀察三:擴大使用不等於縮小差距
報告中最令人擔憂的發現之一,是全球 AI 使用的持續不均等。高收入國家不僅使用率更高,使用方式也更加多元和精緻。低收入國家的使用者主要將 AI 用於課業學習這類特定用途,而高收入國家的使用者則有更多個人用途和協作式的使用模式。
圖:全球各國 Claude.ai 用於工作的對話比例。顏色愈深代表工作用途比例愈高。灰色區域為 Claude 未提供服務或資料不足的地區。巴爾幹半島與巴西的工作用途比例最高,而印尼則以課業用途為主。資料來源:Anthropic Economic Index Report, January 2026。
這種差異不會因為「讓更多人能夠使用 AI」就自動消失。正如報告所指出的,使用者提問的教育程度與 AI 回覆的教育程度高度相關。即使每個人都能取用相同的 AI 工具,能夠從中獲得的價值仍然會因為基礎能力的差異而不同。
這對政策制定者是一個重要提醒。推動 AI 普及當然重要,但如果不同時投資於基礎教育、閱讀寫作能力、批判思考能力的培養,AI 可能反而會擴大既有的不平等。那些本來就有較好教育資源的群體會更有效地運用 AI,而那些資源較少的群體雖然也能使用同樣的工具,卻無法獲得同等的效益。
報告也發現,在美國國內,雖然有快速收斂的跡象,但這主要發生在勞動力組成類似的情況下。那些擁有更多科技專業人才的州使用率更高,這個關係本身說明了某種結構性的優勢累積。
更根本的問題是:當 AI 傾向被用於需要更高教育程度的任務,並且在這些任務上提供更大的加速效應時,它可能正在強化白領專業人士相對於其他勞工的優勢。這不是說 AI 對所有人都沒有幫助,而是說它對某些人的幫助可能遠大於對另一些人。
Anthropic 報告的結論提到,「擴大 AI 使用本身並不足夠,發展能夠有效使用的人力資本,特別是在低收入經濟體,才是關鍵。」這句話值得所有關心 AI 公平性的人深思。
這份報告的價值與侷限
作為一個長期關注 AI 產業的觀察者,我認為 Anthropic 這份報告有幾個特別的價值。
首先,它基於真實使用數據而非假設情境。多數關於 AI 經濟影響的討論都是推測性的,而這份報告分析的是實際發生的一百萬筆對話。雖然這些對話只代表 Claude 的使用情況,但它提供了一個難得的實證窗口。
其次,它引入了成功率這個關鍵變數。過去的生產力估算往往假設 AI 能完美執行任務,但現實是 AI 會失敗,尤其是在複雜任務上。將成功率納入考量後,生產力估算從 1.8% 降到 1.0%,這是一個更務實的預期。
第三,它呈現了使用模式的地理和社經差異,而非把「AI 使用者」當作一個同質群體。這些差異對於理解 AI 的分配效應至關重要。
但報告也有其侷限。它只分析了 Claude,而市場上還有 ChatGPT、Gemini 等其他主要產品。不同產品的使用者群體可能有不同特徵。另外,報告依賴 Claude 自己來評估任務成功與否,這種自我評估的準確性值得進一步驗證。
更根本的問題是,這份報告呈現的是現狀的快照,而 AI 領域的變化速度極快。Opus 4.5 在報告數據收集期間尚未發布,未來的模型可能在成功率、任務複雜度、使用模式等方面呈現完全不同的圖像。
儘管如此,報告中那個關於提問教育程度與回覆教育程度高度相關的發現,可能具有更持久的意義。因為它不只是關於當前模型的觀察,而是觸及了人機互動的某種本質:AI 回應的品質,終究受限於人類輸入的品質。這個洞見不會因為模型更新而過時。
結語:對話是一種需要練習的能力
讀完這份報告後,我一直在想一個問題:在 AI 時代,我們應該教人們什麼?
如果 Anthropic 的發現是對的,那麼答案可能不是「如何使用 AI 工具」,而是更基礎的東西。我們需要教人們如何清晰地思考和表達,如何定義問題和拆解任務,如何在對話中給予和接收回饋,如何判斷資訊的品質和可靠性。
這些能力在 AI 出現之前就很重要,在 AI 時代只會更加重要。因為它們決定了一個人能夠多有效地與 AI 協作,能夠從 AI 獲得多大的價值。
報告中的數據顯示,Claude.ai 使用者與 AI 協作處理任務的平均時間是 15 分鐘。這不是一個很長的互動過程,但在這短短 15 分鐘內,對話的品質會直接影響最終的結果。那些能夠清晰表達需求、準確理解回應、有效進行追問的使用者,會得到更好的結果。這不是關於「技巧」的問題,而是關於「能力」的問題。
也許這份報告最重要的啟示是:AI 不會自動讓每個人變得更有能力,但它可以讓有能力的人變得更有效率。這不是一個令人舒服的結論,但它可能是一個誠實的結論。
而誠實面對這個現實,才是思考如何在 AI 時代創造更公平機會的起點。
相關連結