AI 產業動態

AI 太聰明反而更會騙人?Gemini 3 Flash 的「幻覺式推理」現象

Gemini 3 Flash 在 benchmark 上表現亮眼,但有人發現它的幻覺率也很高。奇怪的是,高幻覺率卻沒有影響最終答案的正確性。這個反直覺的現象揭示了 AI 推理的本質——它可能在思考過程中「瞎掰」,但最後卻能自我修正得到正確答案。

來源: Break Even Brothers Podcast

Google 推出的 Gemini 3 Flash 在各項 benchmark 上表現亮眼,速度快、成本低,而且智能水準幾乎追平旗艦級的 Gemini 3 Pro。但在最近一集 Break Even Brothers Podcast 中,主持人提到了一個有趣的發現:Gemini 3 Flash 的幻覺率(hallucination rate)其實蠻高的。更奇怪的是,這並沒有影響它在 benchmark 上的優異表現。這是怎麼回事?

「我看到的線上分析指出,Gemini 3 Flash 的幻覺率其實蠻高的,」主持人說明。所謂幻覺,就是模型會自己編造事實——說一些聽起來很有道理,但實際上完全是捏造的內容。這在 AI 領域一直是個大問題,也是很多人不敢完全信任 AI 輸出的主要原因。但令人意外的是,即使幻覺率高,Gemini 3 Flash 在各種測試中的最終答案正確率卻沒有受到太大影響。

「幻覺式推理」:在思考過程中瞎掰,卻能自我修正

這個現象讓人困惑。按照常理,一個會亂編東西的 AI 應該更容易給出錯誤答案才對。為什麼 Gemini 3 Flash 能夠兩者兼得?Podcast 主持人給出了一個解釋:「這個 benchmark 的分析認為,模型幾乎是用幻覺的方式『推理出』答案。」

想像一下這個場景:AI 在解決一個複雜問題時,它的思考過程(chain of thought)可能會走錯方向、編造一些不存在的中間步驟或假設。但因為它整體的推理能力夠強,它能夠在後續的思考中發現這些錯誤,然後自我修正,最終還是得到正確答案。換句話說,它在推理「過程」中會胡說八道,但推理「結果」卻是對的。

這讓人想到 OpenAI 的 o3 模型。當時 o3 推出時也有類似的觀察——高智能伴隨著高幻覺率。主持人回憶道:「o3 在 benchmark 上同樣展現出高智能但高幻覺的特性,這跟它深度的 chain of thought 推理有關。」這些模型在思考過程中可能會偏離軌道,但它們的推理能力強到可以「想通」這些錯誤,最後還是走回正軌。

這是一個有點弔詭的現象。傳統上我們認為幻覺是 AI 的缺陷,是需要被消除的問題。但這些觀察暗示,某種程度的「創造性瞎掰」可能反而有助於推理——只要 AI 有足夠的能力在後續步驟中自我糾正。就像人類在解題時,有時候也會先嘗試一個錯誤的方向,然後意識到不對,再回頭嘗試別的方法。

這對 AI 開發者和使用者意味著什麼

這個發現對實際應用有什麼影響?首先,它提醒我們不要只看單一指標。幻覺率高不一定代表模型不可靠,最終答案的正確率高也不代表模型的思考過程完全正確。評估 AI 模型需要更全面的視角,而不是只看某個 benchmark 的分數。

其次,這對那些需要檢視 AI 推理過程的應用場景是個警訊。如果你只關心最終答案(比如「這個數學題的解是什麼」),那麼 Gemini 3 Flash 這類模型可能沒問題。但如果你需要 AI 的推理過程本身是可靠的——比如法律論證、醫療診斷——那就需要更謹慎。因為 AI 可能給你一個正確的結論,但中間的論證過程卻站不住腳。

主持人也坦言這個現象讓人有點不安:「用幻覺的方式推理出答案⋯⋯這聽起來有點讓人擔心,對吧?這正是讓人們對 AI 感到不安的地方。」AI 幻覺一直是公眾信任的主要障礙,現在發現某些模型可能是靠「幻覺式推理」在解決問題,這確實讓人有些不安。

不過他也樂觀地表示,Google 很可能會在下一個版本中改進這個問題。「我覺得 Google 大概會在下一個模型發布時把這個問題處理得更好。」畢竟 Gemini 3 Flash 已經在速度和智能之間取得了很好的平衡,如果能進一步降低幻覺率,那就更完美了。根據 DeepMind 官網的資料,Gemini 3 Flash 的知識截止日期是 2025 年 1 月,定位是「速度與規模不必犧牲智能」,看來 Google 確實在這個方向上投入了大量資源。

信任 AI 的邊界在哪裡

這個話題最終指向一個更根本的問題:我們應該在多大程度上信任 AI 的輸出?答案可能取決於具體的使用場景和風險承受度。對於低風險的任務——比如寫程式、整理筆記、產生創意點子——幻覺式推理可能無傷大雅,反正你會自己檢查結果。但對於高風險的決策——財務分析、法律建議、醫療判斷——你可能需要更保守的模型,或者至少需要人類專家的二次驗證。

各種 benchmark 確實衡量不同面向的能力:長 context 的記憶力、幻覺率、純粹的智能、程式碼能力⋯⋯但這些指標之間的關係比我們想像的複雜。高智能可能伴隨著高幻覺,而高幻覺不一定導致錯誤答案。這讓評估 AI 模型變得更加微妙,也讓「這個 AI 可不可信」這個問題變得更難回答。

或許,最務實的態度是:把 AI 當成一個非常聰明但有時會胡說八道的助手。它能幫你快速完成很多事情,但你不應該盲目相信它說的每一句話。就像你不會因為一個同事很聰明,就完全不檢查他交出來的報告一樣。AI 幻覺的存在,提醒我們人類的判斷力依然不可或缺。

本文整理自 Break Even Brothers Podcast 2025 年 12 月底播出的單集。