AI 產業動態

讓人類主管評估員工技能,未來會被視為不道德?一個大膽假設的正反兩面

Workera 創辦人 Kian Katanforoosh 預言,幾年後讓人類評估人類的技能將被視為不道德——因為 AI 更公平、更一致、更沒有偏見。但現實真的這麼簡單嗎?從紐約市法規到華盛頓大學的最新研究,AI 評估的光明面和陰暗面同樣真實。

來源: WEF Meet the Leader
讓人類主管評估員工技能,未來會被視為不道德?一個大膽假設的正反兩面

本文整理自世界經濟論壇 Podcast《Meet the Leader》2026 年初播出的單集,並補充外部觀點。


一個大膽的預言

在世界經濟論壇的 Podcast《Meet the Leader》上,Workera 創辦人暨執行長 Kian Katanforoosh 拋出了一個讓人停下來想的預言:「幾年後,讓一家公司要求人類來評判另一個人類的技能,會被視為不道德的行為。不論是外部的面試,還是內部的績效管理。」

這不是某個象牙塔裡的學者在發表理論。Kian 是史丹佛大學吳恩達(Andrew Ng)的門生,和吳恩達共同創辦了 deeplearning.ai,也一起打造了 Coursera 上全球數百萬人修過的深度學習課程。2019 年他創辦 Workera,一間用 AI 衡量人類技能的公司,吳恩達擔任董事長,累計融資約 4,730 萬美元,客戶包括 BCG 和禮來製藥。他做的事情就是讓 AI 取代人類來評估人的能力,所以他當然有理由看好這個方向。

但我們不能因為有利益立場就否定他的觀點。讓我們認真檢視他的論據,然後看看反面的聲音怎麼說。

Kian 的核心論點:人類的偏見是一個 bug

Kian 的出發點是一個相當紮實的觀察。他指出,目前大型企業可能有數千名面試官,彼此之間幾乎不可能達成校準。即使 HR 團隊再努力,你還是會遇到「喜歡跟自己相似的人」的面試官——聽起來像自己的人、看起來像自己的人、思考方式像自己的人,都會在無意識中獲得加分。Kian 的結論很直接:「偏見是一個 bug,而人類不幸地天生就有這個 bug。」

他進一步用 Workera 的實際經驗來支持這個論點。Workera 開發了一個叫 Sage 的 AI 導師系統,專門評估人的技能。Kian 說,Workera 的研究團隊中有專攻技能測量的博士,他們持續訓練 AI,在它犯錯時糾正它,讓它越來越準確、越來越公平。他的邏輯是:AI 的偏見是可以被量化、審計和修正的,但人類的偏見卻根深蒂固、難以自覺。

這個觀點確實有一些外部研究支持。招聘科技公司 Findem 的研究數據顯示,在特定的受控條件下,AI 系統在公平性指標上的得分(0.94)明顯高於人類主導的招聘流程(0.67),對女性和少數族裔求職者的公平性分別提升了約 39% 和 45%。招聘平台 HireVue 在 2025 年的報告中也指出,已有 53% 的 HR 主管表示信任 AI 驅動的招聘建議。

如果 Kian 的願景成真,管理的面貌會發生根本性的改變。他預測,未來一個主管可能從現在管理五到七個人,擴大到管理一百個人,因為 AI Agent 接手了技能評估、任務分配、績效追蹤這些原本極度耗費心力的工作。主管的角色將從「評估者」轉型為「激勵者」和「促進者」,專注於人際溝通、團隊凝聚力、心理安全感這些 AI 很難取代的情感層面。

但事情沒有這麼簡單

Kian 的預言有一個前提:AI 必須真的比人類更公平。但「公平」這個概念本身就複雜到令人頭痛,而且實際數據告訴我們,AI 評估的故事遠沒有那麼乾淨。

2025 年 11 月,華盛頓大學的一項研究把 528 個人放進模擬的招聘場景中。他們發現了一件令人不安的事:當 AI 的推薦帶有中度偏見時,擔任人類審核角色的參與者不但沒有糾正這些偏見,反而完整地「鏡射」了 AI 的偏見。不管 AI 偏好的是白人還是非白人候選人,人類審核者都照單全收。

更糟的是,即使研究人員對部分參與者進行了偏見覺察訓練,這些人做出有偏見決策的比例只降低了 13%。換句話說,「人類監督 AI 來防止偏見」這個聽起來很合理的安全網,在實驗中幾乎形同虛設。

另一個層面的問題是:AI 的公平性本身可能是一種幻覺。《哈佛商業評論》在 2025 年 12 月發表了一項為期三年的田野研究,追蹤一家全球消費品公司導入演算法招聘系統的過程。研究團隊發現,這套系統確實做到了「公平」,但代價是鎖定了一種僵化的公平定義——它重新定義了什麼叫公平,而不是單純地減少偏見。當你讓演算法決定什麼是「好人才」的標準,你可能會在不知不覺中排除那些不符合演算法定義但實際上很有潛力的人。

紐約大學新聞學教授 Hilke Schellmann 在她 2024 年出版的著作《The Algorithm》中,對 AI 招聘工具進行了深入調查。她測試了分析面部表情和從聲音預測焦慮程度的演算法,發現其中存在嚴重的缺陷和系統性歧視。而這些工具已經被 99% 的財星 500 大企業使用。她的調查是一個重要的提醒:不是所有的 AI 評估工具都像 Kian 描述的那樣經過嚴格的科學驗證。

法規已經在跑了

各國政府顯然也不認為可以放心讓 AI 來評判人才。監管浪潮正在全球蔓延,而且速度很快。

最具代表性的是紐約市的 Local Law 144,這是全美第一部全面規範 AI 招聘工具的法規,自 2023 年 7 月起生效。它要求所有使用「自動化就業決策工具」的雇主必須進行年度獨立偏見審計,公開審計結果,並在使用前提前十個工作天通知求職者。違規者首次罰款 500 美元,之後每次最高 1,500 美元,而且每一天的違規使用都算獨立一次。

歐盟的 AI 法案(EU AI Act)走得更遠,直接把招聘用的 AI 歸類為「高風險」,對訓練資料、透明度和人類監督都設下嚴格要求。罰款上限是 4,000 萬歐元或全球營收的 7%,取高者。美國方面,伊利諾州、科羅拉多州、加州也在 2025 到 2026 年間陸續推出針對 AI 就業決策的新法規,要求揭露、審計和反歧視保障。

這些法規的存在本身就說明了一件事:全球的立法者認為 AI 評估人類不是一件可以自由放任的事情。它需要制衡、需要透明、需要人類的監督。哪怕我們已經知道,人類的監督也不完美。

求職者買單嗎?

在所有的技術討論和法規框架之外,還有一個往往被忽略的面向:被評估的人怎麼想?

2026 年的招聘趨勢報告顯示,只有 26% 的求職者信任 AI 能公平地評估他們。這個數字意味著,即使 AI 在統計上確實比人類更公平,但絕大多數人主觀上並不這麼認為。他們更傾向於雙向互動的人類面試,而不是被一個黑箱演算法審判。

這不只是情感問題,也涉及實際的商業考量。如果你的招聘流程讓頂尖人才感到不舒服或不被尊重,他們可能根本不會走完流程。美國人力資源管理學會(SHRM)的專家就警告,過度自動化的最大風險不是偏見,而是為了追求速度犧牲了人才品質。那些最有選擇權的頂尖候選人,恰恰是最不願意被機器面試的人。

這是 Kian 的願景中一個需要被認真對待的盲點。Workera 的模式是讓 AI 做「技能評估」,這比讓 AI 做「面試」要窄得多,也容易得多。但從一個技能測驗到全面取代人類判斷,中間的跨度比看起來大得多。

我的觀察:真正的問題不是「AI vs 人類」

聽完 Kian 的觀點,再看過反面的證據,我覺得最危險的思維方式是把這個議題簡化成「AI 比人類好」或「人類比 AI 好」的二選一。

事實上,最新的研究恰恰指向一個更微妙的結論:AI 和人類各自有不同類型的偏見,而且當兩者結合使用時,如果不經過精心設計,人類不但不會糾正 AI 的偏見,反而會放大它。這意味著,簡單地在 AI 系統上疊加一層「人類審核」不是解方。你需要重新設計整個評估流程,讓 AI 和人類各自發揮優勢。

Kian 說得對的部分是:人類評估者的偏見確實是一個嚴重且長期未被解決的問題,而 AI 在特定條件下確實能做到更一致、更可衡量的評估。他說得還不夠完整的部分是:AI 的公平性高度依賴訓練資料和設計選擇,而且「公平」本身的定義就是一個需要人類判斷的價值問題。你不能用演算法來決定什麼叫公平。

對臺灣企業來說,這個議題其實比矽谷更切身。我們的企業文化中,面試往往高度依賴主管的「感覺」和「印象」,結構化面試的採用率遠低於歐美。如果連歐美企業都已經在立法規範 AI 招聘,而且研究還在揭露各種問題,那我們在擁抱 AI 評估之前,可能需要先把基本的結構化面試和評估流程建立起來。

Kian 的預言會不會成真?也許。但在那之前,更務實的下一步可能不是急著讓 AI 取代人類的判斷,而是先承認一個事實:不管是 AI 還是人類,我們對「公平評估一個人」這件事的理解,都還遠遠不夠。