AI 技術前沿 2018 年 7 月 8 日

當 NLP 終於等到它的 ImageNet 時刻

2018 年 7 月，NLP 研究者 Sebastian Ruder 在部落格上宣告：自然語言處理終於迎來了屬於自己的 ImageNet 時刻。三個預訓練模型同時爆發，從此改變了整個領域的遊戲規則。八年後回頭看，他的預言不只被驗證，而且被超額實現——語言模型不只統一了 NLP，還反過來吞掉了所有模態。

來源： The Gradient

本文為「AI 經典文獻回顧」系列第八篇，介紹 Sebastian Ruder 於 2018 年 7 月發表在 The Gradient 的部落格文〈NLP’s ImageNet Moment Has Arrived〉。這篇文章宣告自然語言處理正在經歷一場如同電腦視覺領域 ImageNet 革命般的範式轉移——從淺層的詞向量，走向整個模型的預訓練。

封面圖

NLP 研究者的隔壁家小孩焦慮

2018 年夏天，自然語言處理（NLP）的研究者有一種很深的焦慮，而這種焦慮的來源不是自己的領域出了什麼問題，是隔壁的電腦視覺過得太好了。

故事要從 2012 年說起。那一年，Alex Krizhevsky 用一個叫做 AlexNet 的深度神經網路在 ImageNet 圖像辨識比賽中碾壓了所有傳統方法——我們在系列的 AlexNet 篇章中詳細講過這段歷史。但 AlexNet 帶來的改變遠不只是一場比賽的勝負。真正深遠的影響是，它催生了一整套「預訓練加微調」的工作流程：研究者先在 ImageNet 的一千四百萬張圖片上訓練一個大型卷積神經網路，讓它學會辨認從邊緣、紋理到物體輪廓的各層次視覺特徵，然後把這個訓練好的模型拿來當起點，針對新的任務——醫療影像判讀、衛星圖分析、人臉辨識——只需要少量新資料就能微調出高水準的模型。

這套流程徹底改變了電腦視覺的研究方式。一個博士生、一個小型新創團隊，不需要自己蒐集百萬張標註圖片，只要下載一個在 ImageNet 上預訓練好的模型，就能站在巨人的肩膀上做自己的研究。到 2018 年，這已經不是前沿技術，而是電腦視覺領域的日常操作，就像呼吸一樣自然。

但 NLP 研究者回頭看看自己的領域，景況完全不同。他們手上最先進的「預訓練」工具是什麼？是 word2vec 和 GloVe——兩種把單詞映射成固定向量的方法。這些詞向量確實有用，它們捕捉到了詞彙之間的語義關係（經典的例子：「國王」減去「男人」加上「女人」等於「皇后」），讓很多 NLP 模型的表現有了顯著提升。但問題在於，詞向量只初始化了模型的第一層。你拿到的是一組固定的詞彙表示，然後自己從頭搭建模型的其他部分。

更要命的是，word2vec 和 GloVe 給每個詞一個固定的向量，不管上下文是什麼。「我去銀行存錢」和「河岸的銀行長滿了草」裡面的「銀行」（英文的 bank），對應的是同一組數字。這就像電腦視覺只預訓練了邊緣偵測那一層，對於形狀、物體、場景的更高層次理解，你得自己從零開始學。

六年了。從 AlexNet 到 2018 年，電腦視覺靠著 ImageNet 預訓練一路狂飆，而 NLP 還在用淺層的詞向量當起跑點。這不是能力差距的問題，是範式差距。

三箭齊發：一個範式的開關被同時按下

然後，在 2018 年的前半年，三個研究團隊幾乎同時發表了三篇論文，一起按下了那個開關。

第一支箭是 ULMFiT。2018 年 1 月，fast.ai 的 Jeremy Howard 和在愛爾蘭攻讀博士的 Sebastian Ruder 把一篇論文放上了 arXiv，標題是〈Universal Language Model Fine-tuning for Text Classification〉。這篇論文的核心想法直接從電腦視覺借來：不要只預訓練第一層，把整個語言模型都預訓練好，然後微調到下游任務。聽起來簡單，但實際操作中有一個棘手的問題——語言模型在微調時很容易「忘記」預訓練階段學到的知識，術語叫「災難性遺忘」。Howard 和 Ruder 提出了三個技巧來解決它：逐層解凍（gradual unfreezing）、分層學習率（discriminative fine-tuning）、以及一種叫做斜三角學習率（slanted triangular learning rates）的訓練策略。結果是：在六個文本分類基準測試上，ULMFiT 把錯誤率降低了 18% 到 24%。

第二支箭是 ELMo。同樣是 2018 年初，艾倫人工智慧研究所（AI2）的 Matthew Peters 和華盛頓大學的團隊發表了〈Deep Contextualized Word Representations〉。ELMo 解決的正是 word2vec 的致命弱點：一詞一義的問題。ELMo 用一個深層的雙向語言模型來生成詞的表示，同一個詞在不同句子裡會得到不同的向量。這不再是查字典式的靜態對應，而是模型真正在「讀」上下文之後才給出的動態理解。ELMo 在六個 NLP 任務上都達到了當時的最佳成績，論文在 NAACL 2018 拿到了最佳論文獎。

第三支箭是 OpenAI 的 GPT。2018 年 6 月，Alec Radford 和同事們發表了一篇用 Transformer 架構（也就是我們在系列第六篇詳細介紹過的那個架構）來做語言模型預訓練的論文。GPT 在 BooksCorpus 這個七千本未出版小說的語料庫上訓練，然後微調到各種下游任務，結果在 12 個任務裡拿了 9 個最佳成績。

三支箭的設計哲學各有不同——ULMFiT 用 LSTM，強調微調技巧；ELMo 用雙向 LSTM，強調上下文表示；GPT 用 Transformer，強調架構的擴展性——但它們指向同一個結論：NLP 的遊戲規則正在改變。過去，你預訓練的是一組詞向量，也就是模型的第一層。現在，你預訓練的是整個模型——從底層的語法結構到高層的語義理解，一次到位。

宣告者本身就是革命的參與者

就在這三支箭密集落地的 2018 年 7 月 8 日，Sebastian Ruder 在 The Gradient 發表了一篇部落格文，標題是：〈NLP’s ImageNet Moment Has Arrived〉。

這個標題本身就是一個精準的類比。ImageNet 之於電腦視覺，不只是一個資料集，它是一個讓遷移學習成為標準操作的觸發點。Ruder 要說的是：語言模型預訓練之於 NLP，正在扮演同樣的角色。

文章的論證結構很清楚。Ruder 先回顧了電腦視覺如何因為 ImageNet 而建立起預訓練加微調的範式——模型在大規模資料上學會分層次的特徵表示，從低層的邊緣偵測到高層的物體辨識，然後這些學到的表示可以遷移到各種不同的視覺任務。接著他問：NLP 有沒有等價物？他的答案是語言模型。預測下一個詞這個看似簡單的任務，實際上要求模型學會語法結構、語義關係、常識推理、甚至情感理解。更重要的是，訓練資料幾乎無限——任何文本語料庫都可以用，不需要人工標註。

然後 Ruder 做了一個大膽的預測。他寫道：一年之內，NLP 研究者會開始下載預訓練好的語言模型，而不是預訓練好的詞向量，來作為他們專案的起點。

這個預言的有趣之處在於：說這話的人自己就是造成這個改變的人之一。Ruder 不只是一個站在旁邊觀察的評論家——他就是 ULMFiT 的共同作者，三支箭中的第一支就是他射出去的。

這段合作的緣起本身就是一個好故事。Jeremy Howard 在 fast.ai 的課程中展示了語言模型微調的早期實驗結果。Ruder 看到之後主動聯繫 Howard，告訴他這個成果值得寫成正式論文發表，而且自告奮勇說他來寫——因為他希望把這個研究放進自己正在進行的博士論文裡。於是一個在舊金山做線上教育的澳洲創業者，和一個在都柏林讀博士的德國研究生，聯手寫出了一篇改變 NLP 研究方式的論文。

Ruder 當時還是一個博士生，但他在 NLP 社群裡已經有不成比例的影響力。他經營的部落格和電子報——NLP News，是整個領域追蹤最新研究的重要來源之一。他有一種罕見的能力：既能做前沿研究，又能用清晰的文字向更廣泛的社群解釋這些研究為什麼重要。〈NLP’s ImageNet Moment〉就是這種能力的完美展現——他同時是研究的參與者和意義的詮釋者。

三個月後，預言就被驗證了

Ruder 說一年之內，研究者會開始下載預訓練語言模型而非詞向量。他低估了速度。

2018 年 10 月 11 日——距離〈NLP’s ImageNet Moment〉發表只過了三個月——Google 的 Jacob Devlin 和同事在 arXiv 上放出了 BERT 的論文。BERT 做的事情完全符合 Ruder 描繪的圖景：用 Transformer 的編碼器架構，在大量文本上做雙向的語言模型預訓練，然後微調到各種下游任務。結果是毀滅性的——BERT 在十一個 NLP 基準測試上全部刷新了最佳紀錄，其中 GLUE 綜合評分直接提升了 7.7 個百分點。

BERT 之後，洪水來了。Google 在 2019 年就把 BERT 整合進搜尋引擎，到 2020 年幾乎所有英文搜尋查詢都經過 BERT 處理。OpenAI 沿著 GPT 的路線繼續放大規模，2019 年發表了 GPT-2（15 億參數，大到 OpenAI 一度不敢公開釋出完整模型），2020 年發表了 GPT-3（1,750 億參數）。學術界和產業界的每一個 NLP 團隊，都開始把預訓練語言模型當作標準起點。

Ruder 描述的範式轉移——從只初始化第一層到預訓練整個模型——不但發生了，而且發生的速度和規模遠超他在文章中的想像。他原本的類比是 ImageNet：一個讓遷移學習成為標準操作的觸發點。但後來發生的事情遠比 ImageNet 的故事更激進。

ImageNet 預訓練模型讓電腦視覺變得更好更方便，但它沒有改變電腦視覺的基本問題結構——你還是在做圖像分類、物體偵測、語義分割這些明確定義的任務。預訓練語言模型做到的事情完全不同。它們不只是讓 NLP 的各種任務變得更容易，它們最終模糊了「任務」本身的邊界。當一個 GPT-3 或 GPT-4 可以用自然語言指令完成翻譯、摘要、問答、寫作、推理，「NLP 的下游任務」這個概念本身就開始瓦解了。

語言模型沒有留在 NLP 裡

Ruder 的文章也有一個他自己大概沒有預見到的後續發展。

他在 2018 年用的類比是：語言模型預訓練之於 NLP，就像 ImageNet 預訓練之於電腦視覺。這個類比假設語言模型會待在 NLP 的領域裡，就像 ImageNet 待在電腦視覺裡一樣。但事實是，語言模型沒有乖乖待在自己的車道上。

到了 2023 年，大型語言模型已經能處理圖像、音訊、影片。GPT-4 可以看圖回答問題，Gemini 可以理解影片內容，各種多模態模型把文字、圖像、聲音全部統一在同一個框架下。語言模型從 NLP 的一個工具，變成了整個 AI 領域的中心架構。

這個發展方向其實在 Ruder 的文章裡有一個微妙的線索。他指出，預測下一個詞這個任務之所以強大，是因為它迫使模型學會語法、語義、常識推理、甚至世界知識。他當時把這當作語言模型適合做 NLP 預訓練任務的理由。但如果你把這個觀察推到極致——如果一個模型為了預測文字而學會了這麼豐富的世界知識——那它為什麼要被侷限在文字任務裡？

站在 2026 年回頭看，NLP 的 ImageNet 時刻不只是 NLP 的 ImageNet 時刻。它是整個深度學習範式的一個轉折點。從那之後，語言模型逐漸成為 AI 的預設架構——如同我們在 Transformer 那篇文章中所說，注意力機制原本是為了翻譯而設計的，結果它吃掉了整個 AI。語言模型預訓練走了一條類似的路：原本是為了解決 NLP 任務的遷移學習問題，結果它定義了一整個時代。

正確的直覺，低估的規模

Sebastian Ruder 在寫完〈NLP’s ImageNet Moment〉之後，繼續在 NLP 的多語言研究領域深耕。他先後在 Google DeepMind 和 Cohere 工作，帶領多語言團隊。2024 年 11 月，他加入了 Meta 擔任研究科學家，專注於大型語言模型的多語言能力和評估方法。他的電子報 NLP News 至今仍是追蹤自然語言處理研究的重要來源。

有意思的是，Ruder 整個職涯的軌跡就是他那篇文章的延伸。他在 2018 年主張語言模型預訓練會改變 NLP 的遊戲規則，然後他接下來的每一步——在 Google DeepMind 做多語言 NLP、在 Cohere 做企業級語言模型、在 Meta 做 LLM 評估——都是在這個被改變了的新世界裡工作。他宣告了一場革命，然後在革命之後的世界裡建設。

回到這個系列的脈絡。如果說〈數據的不合理有效性〉（2009）是規模思維的起點，AlexNet（2012）是深度學習的大爆炸，Transformer（2017）是架構的基石，Software 2.0（2017）是範式轉移的宣言，那〈NLP’s ImageNet Moment〉就是預訓練時代的宣告書。它標記了一個精確的歷史節點：從這裡開始，NLP 不再是 AI 領域的配角，而是即將成為主角。

Ruder 抓對了直覺。語言模型預訓練確實是 NLP 的轉捩點。但跟我們上一篇介紹的 Karpathy 一樣，他低估了規模。他以為語言模型會成為 NLP 的 ImageNet。結果語言模型成為了整個 AI 的 ImageNet——然後它連 ImageNet 本身的領地都接管了。

在這個系列的下一篇，我們將介紹理察．薩頓（Richard Sutton）在 2019 年 3 月寫下的〈The Bitter Lesson〉。那篇只有七百字的短文會提出一個更根本的問題：為什麼規模總是贏？為什麼人類精心設計的巧思，最終總是敗給暴力計算？如果說 Ruder 宣告了預訓練時代的到來，薩頓要解釋的是：這一切背後有一個更深層的、令人不舒服的規律。