AI 技術前沿

「LLM 永遠無法達到人類智慧」——Yann LeCun 的技術宣戰

Yann LeCun 認為 LLM 路線從根本上走錯了方向。他用數學計算證明所有網路文字的資訊量僅等於一個四歲小孩的視覺經驗,並解釋為何影片生成模型也無法理解物理世界。本文詳述他主張的 JEPA 架構如何在抽象表徵空間做預測,以及為何這才是通往人類智慧的正確路徑。

來源: Information Bottleneck Podcast

本文整理自 Information Bottleneck Podcast EP20 對 Yann LeCun 的專訪。

Yann LeCun 與矽谷主流的分歧,不是「A 方法好還是 B 方法好」這種程度的爭論。他認為 LLM 這整條路線從根本上就走錯了。在最近的 Information Bottleneck 訪談中,這位圖靈獎得主花了將近兩個小時,詳細解釋為什麼他認為 LLM 是死胡同,以及他認為正確的方向是什麼。

這不是學術象牙塔裡的辯論。LeCun 剛離開 Meta,創辦了一家專注於 World Model 的新公司 AMI。他把自己的信念付諸行動,用創業來押注這個與主流完全不同的技術路線。

文字資料的資訊量,少得可憐

LeCun 的核心論點之一,是關於資料量的數學計算。

訓練一個像樣的 LLM,需要用到基本上所有網路上可取得的文字資料,加上合成資料、授權資料等等。一個典型的前沿模型大概訓練在 30 兆個 token 上。一個 token 大約是 3 個位元組,所以這是大約 10^14 位元組的資料。

現在來比較影片。如果用相對壓縮的格式(不是高度壓縮,但也不是原始畫面),每秒影片大約是 2 MB。10^14 位元組相當於多少影片?大約 15,000 小時。

15,000 小時聽起來很多,但其實少得可憐。這是 YouTube 30 分鐘內的上傳量。這也大約是一個四歲小孩在他整個人生中醒著的時間看到的視覺資訊量。換句話說,所有網路上的文字資料加起來,資訊量跟一個四歲小孩看過的東西差不多。

這個數字讓 LeCun 得出一個結論:「我們絕對不可能只靠訓練文字就達到人類水準的 AI。永遠不會。」

為什麼影片資料不能用 LLM 的方式處理?

那為什麼不乾脆用更多影片資料來訓練呢?問題在於,LLM 的架構根本不適合處理影片這種資料。

LLM 的運作方式是把所有東西都轉換成離散的 token,然後預測下一個 token 是什麼。這對文字來說還算合理——文字本來就是離散的符號序列。但影片是高維度、連續、充滿噪音的資料。

試著想像把一個影片「token 化」會發生什麼事。影片裡有太多細節是完全不可預測的:樹葉怎麼飄動、水面的波紋怎麼變化、背景裡的雜訊。如果你試圖預測「下一個 token」(下一幀影像的某個部分),你會發現大部分的預測都是不可能準確的,因為這些細節本來就是隨機的。

LeCun 用一個詞來形容這類資料:「高維度、連續、有噪音」。LLM 在這類資料上表現很差。即使是現在的多模態模型,它們的視覺能力也是另外訓練的,不是 LLM 本身學會的。

影片生成模型也不是答案

那影片生成模型呢?像 Sora 這樣的系統可以產生看起來很真實的影片,這不代表它理解了物理世界嗎?

LeCun 的答案是:不一定,而且很可能不是。

「產生看起來漂亮的影片,不代表你真的學會了世界的底層動力學。」他說。這些系統可能只是學會了「什麼樣的像素組合看起來合理」,但對於為什麼物體會這樣移動、物理定律是什麼,可能完全沒有概念。

他舉了一個例子:如果桌上有個物體,你推動桌子,物體會跟著移動。這是我們在大約九個月大的時候學會的事情(物體恆存性的一部分),但 LLM 根本不「理解」這件事。你可以微調它們讓它們回答正確的答案,但那只是記憶,不是理解。

影片生成模型也一樣。它們可以產生「看起來物體跟著桌子移動」的影片,但這不代表它們理解了「支撐」這個概念。這只是統計規律的記憶,不是因果關係的理解。

World Model 不是模擬器

很多人聽到「World Model」會想到模擬器——一個能重現所有細節的系統,像《星艦迷航記》裡的全息甲板。LeCun 說這完全搞錯了方向。

他用流體力學來解釋這個概念。如果你想模擬空氣繞著飛機機翼流動,你可以用計算流體力學(CFD):把空間切成小方塊,每個方塊記錄速度、密度、溫度等變數,然後用納維-斯托克斯方程來計算隨時間的演變。這已經是一個「抽象化」了——你沒有去模擬每一個空氣分子。

但真正的底層是什麼?是分子互相碰撞。再往下?是原子。再往下?是基本粒子和量子場論。從理論上說,你可以用量子場論來描述我們這個房間裡發生的一切,但你需要一台地球大小的量子電腦,而且你的模擬可能只準確幾奈秒就會發散。

所以我們發明了「抽象化」。粒子→原子→分子→蛋白質→細胞→器官→生物體→社會。每一層都忽略了下一層的大量細節,但正是因為這樣,我們才能做出更長期、更可靠的預測。

這就是 World Model 應該做的事:在抽象的表徵空間裡做預測,只模擬「相關」的部分,忽略那些不可預測的細節。物理學家把這些被忽略的細節叫做「熵」。

「如果我問你:木星一百年後會在哪裡?」LeCun 說。「我們有關於木星的海量資訊,但要回答這個問題,你只需要六個數字:三個位置、三個速度。其他都不重要。」

JEPA:正確的技術路線

LeCun 推動的技術路線叫做 JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)。核心想法是:不要在像素層級做預測,而是先把輸入(比如影像或影片)透過編碼器轉換成抽象表徵,然後在這個抽象空間裡做預測。編碼器會自動學會忽略那些不可預測的細節——因為那些細節只會增加預測誤差,對學習沒有幫助。

這個想法聽起來簡單,但實現起來有個大問題:collapse(崩塌)。如果你訓練一個系統「讓預測誤差最小」,最簡單的解法就是讓編碼器永遠輸出同樣的東西。這樣預測誤差是零,但表徵完全沒有資訊。

LeCun 和他的團隊花了很多年在解決這個問題。從早期的對比學習方法,到後來的 Barlow Twins、VICReg,再到最近的 SigReg 和 LOGIC-JA。這些方法的共同目標是:確保表徵包含足夠的資訊(不會崩塌),同時又不要求重建所有細節。

「我們在這個領域取得了快速進展。」他說。「接下來一兩年應該會有更多突破,我認為這是一組非常有前景的技術,用來訓練模型學習抽象表徵。」

這不只是學術之爭

這不是象牙塔裡的辯論。LeCun 認為 LLM 的限制是根本性的,它永遠無法處理真實世界中大量重要的問題。

影片理解、機器人控制、自動駕駛、工業流程——任何涉及「高維度、連續、有噪音」資料的領域,LLM 都表現不好。這些領域裡,人們嘗試過用 LLM 方法,基本上都失敗了。

他提到了一家叫 Wayve 的公司(他是顧問)。這是一家專注於自動駕駛的英國公司,他們用 World Model 來做決策:先把攝影機畫面編碼成抽象表徵,然後在這個空間裡做時間預測。LeCun 認為他們「做對了一半」——在表徵空間做預測是對的,但他們用來學習表徵的方法(重建式的 VAE)還不夠好。

這就是 AMI 要做的事:把 JEPA 這套技術真正做到可用,然後應用到那些 LLM 無法處理的領域。

一個根本性的分歧

在訪談的最後,LeCun 說了一句很有意思的話:「我正在招募那些在矽谷公司裡,覺得『這條路行不通,我想做 JEPA、World Model』的人。」

這場分歧的核心不只是「哪種技術更好」,而是對智慧本質的不同理解。LLM 路線假設:只要有足夠多的文字資料和足夠大的模型,就能「湧現」出智慧。LeCun 認為這是妄想。真正的智慧需要對物理世界有深刻的理解,而這種理解必須來自對真實世界資料(尤其是視覺和動作資料)的學習。

「純文字訓練永遠無法達到人類水準的 AI。」他說。「這就是不可能的事。」

這個論點對或錯,要好幾年才會有定論。但 LeCun 已經離開 Meta、創辦 AMI、開始招人。他不只是在說,他在做。如果他對了,現在追逐更大 LLM 的公司可能都在浪費時間。