「別再調模型了,給我更多數據」在深度學習革命前夕,三個 Google 研究者已經知道答案
2009 年,Google 的 Alon Halevy、Peter Norvig 和 Fernando Pereira 發表了一篇不到五頁的短文,主張面對人類語言這類複雜問題,海量數據比精巧演算法更有效。這個在當時被視為異端的觀點,十七年後被證明幾乎預言了整個大型語言模型時代的到來。

本文為「AI 經典文獻回顧」系列第一篇,介紹 2009 年由 Google 三位研究者發表的 The Unreasonable Effectiveness of Data。

2009 年,AI 正在谷底
2009 年的 AI 領域,跟我們今天認識的完全是兩個世界。深度學習革命還沒發生,神經網路自 1990 年代中期就失寵了,主流方法是支持向量機(SVM)和各種 boosting 技術。那一年,史丹佛大學的李飛飛(Fei-Fei Li)剛發布了 ImageNet 資料集,一個包含數百萬張標註圖片的龐大資料庫,她花了三年時間、動用了亞馬遜 Mechanical Turk 上數萬名標註工人才完成。結果呢?學術界幾乎沒人在意。CVPR 頂級會議只給了她一個海報展示的位置,團隊只好印了 ImageNet 品牌的原子筆到會場發,試圖吸引路過的人多看一眼。
在這種氛圍下,如果你跟一個 AI 研究者說「別花時間設計更精巧的演算法了,去找更多數據就好」,他大概會覺得你在開玩笑。精巧的數學模型和優雅的理論推導才是正途,數據只是拿來驗證理論的素材。
但就在那一年,三個 Google 的人寫了一篇不到五頁的短文,說的正是這件事。而且他們不是隨便說說,他們的論點在十七年後的今天回頭看,幾乎預言了整個大型語言模型時代的到來。
一個致敬物理學的標題
這篇文章叫做 The Unreasonable Effectiveness of Data(數據的不合理有效性),發表在 IEEE Intelligent Systems 期刊上。標題本身就是一個精心設計的致敬。1960 年,匈牙利裔美國物理學家尤金.維格納(Eugene Wigner)寫過一篇影響深遠的文章,叫做 The Unreasonable Effectiveness of Mathematics in the Natural Sciences(數學在自然科學中的不合理有效性)。維格納提出了一個至今仍令人困惑的問題:為什麼數學,這種純粹由人類想像力創造的抽象工具,竟然能如此精確地描述物理宇宙的運作?這個問題讓他在 1963 年拿到了諾貝爾物理學獎。
Google 的三位作者借用了維格納的句式,但把「數學」換成了「數據」,而且翻轉了方向。維格納驚嘆的是數學在描述自然界時的神奇有效性;這三位作者要說的是,當問題涉及的是人類行為(語言、翻譯、搜尋)而不是物理定律時,優雅的數學模型反而不管用了。真正管用的,是大量的數據。
這個標題後來啟發了一整個「The Unreasonable Effectiveness of X」的文章傳統,從深度學習到分子生物學都有人套用。但原版的力道最強,因為它挑戰的不只是一個技術選擇,而是整個研究哲學。
三個不是隨便什麼人的作者
寫這篇文章的三個人,都不是在說空話。
Alon Halevy 是資料整合領域的頂尖專家,史丹佛大學博士,在華盛頓大學當了七年教授之後被 Google 挖走,負責領導結構化資料的研究團隊。他在 Google 做的事情包括 WebTables 和 Fusion Tables,這些工具的核心就是從網路上的海量非結構化資料中萃取有用的結構。他比大多數人都更清楚「數據多到一個程度之後會發生什麼事」。
彼得.諾維格(Peter Norvig)可能是三人中最廣為人知的。他和加州大學柏克萊分校的 Stuart Russell 合著的《Artificial Intelligence: A Modern Approach》,是全球 135 個國家、超過 1,500 所大學使用的 AI 教科書,從 1995 年出版至今已經更新到第四版。如果你念過任何 AI 相關課程,幾乎不可能沒碰過這本書。在 Google,他擔任研究總監超過二十年,主導了搜尋演算法、機器翻譯、語音辨識等核心技術的發展。更早之前,他在 NASA 帶領團隊開發了第一個能自主指揮太空船的軟體。
費南多.佩雷拉(Fernando Pereira)乍看之下最低調,其實背景最硬。他是葡萄牙裔美國人,在里斯本長大,1982 年拿到愛丁堡大學 AI 博士學位。他早年參與開發了第一個 Prolog 編譯器,這在計算語言學史上是里程碑級的貢獻。後來他在 AT&T Labs 主管機器學習,在賓州大學當過資訊工程系系主任,再被 Google 挖走負責語言 AI。Google Scholar 上他的論文被引用超過八萬次。
這三個人共同的特點是:他們都不是象牙塔裡的理論家,而是長年在 Google 處理真實世界規模資料的實踐者。當他們說「數據比演算法重要」,不是在做哲學推演,而是在描述他們每天看到的現實。
核心論點:簡單方法加上海量數據,勝過精巧方法加上少量數據
這篇文章的核心論點可以用一句話概括:面對涉及人類行為的複雜問題,與其設計更聰明的演算法,不如去找更多的數據。
這聽起來像廢話,但在 2009 年,這是異端。當時 AI 和機器學習學界的主流信念是:進步來自更好的演算法、更精巧的特徵工程、更深的數學洞見。數據只是原料,真正的功夫在廚師的手藝。三位作者直接翻轉了這個關係,他們說,當你的原料夠多夠好的時候,連一個平庸的廚師都能做出不錯的菜。
他們援引的關鍵證據來自 Michele Banko 和 Eric Brill 在 2001 年發表的一項研究。Banko 和 Brill 比較了多種機器學習演算法在英文拼寫混淆消歧任務上的表現(比如分辨 “their” 和 “there”),發現了一件令人不安的事:當訓練資料從一百萬字增加到十億字,所有演算法的表現都大幅提升,而且原本「最差」的演算法在數據量夠大時,反而可能追上甚至超過原本「最好」的演算法。換句話說,你花三個月優化演算法得到的改進,可能還不如多餵它十倍數據來得有效。
三位作者把這個觀察推到了更極端的結論:當語料庫達到網路規模,數億甚至數兆個訓練樣本,一些最簡單的統計方法,比如 n-gram 模型,就能達到驚人的效果。因為在這種規模下,你不再需要模型去「泛化」或「推理」,你只需要它去「記住」就好。一兆字的語料庫裡,幾乎涵蓋了人類語言使用的所有可能組合,包括那些看起來極其罕見的用法。
一條從 2001 到 2024 的思想線
這篇文章不是憑空冒出來的。它站在一個更早的思想轉變之上。
2001 年,統計學家 Leo Breiman 發表了一篇後來同樣具有里程碑意義的文章,叫做 Statistical Modeling: The Two Cultures。Breiman 把整個統計學界分成兩個陣營:一邊是傳統的「資料建模文化」,先假設數據是由某個特定的統計模型產生的(比如線性迴歸),然後去估計模型的參數;另一邊是新興的「演算法建模文化」,不預設任何生成機制,直接用隨機森林、神經網路這類方法從數據中找模式。Breiman 的觀點很明確:統計學界太執著於前者,應該擁抱後者。他說的本質上跟三位 Google 作者八年後說的是同一件事,讓數據自己說話,不要強塞理論框架。
但真正讓這篇文章的預見性顯得驚人的,是它之後發生的事。2012 年,AlexNet 用深度神經網路贏得 ImageNet 競賽,證明了大數據加上深度學習的威力。2020 年,OpenAI 的 Jared Kaplan 等人發表了 Scaling Laws 論文,把「更多數據更好」這個直覺量化成了精確的冪律關係:模型表現與數據量、參數量、計算量之間存在可預測的數學關係。2022 年,DeepMind 的 Chinchilla 論文進一步修正:不是只要堆數據就好,模型大小和數據量需要等比例擴增,大約每個模型參數對應 20 個訓練 token。
然後到了 2023 年,微軟的 Phi 系列模型又翻了一次桌子。他們用一篇標題相當挑釁的論文 Textbooks Are All You Need 證明:用精心策展的高品質合成資料訓練的小模型,可以打敗用大量低品質資料訓練的大模型。這似乎直接挑戰了 2009 年的論點,但仔細想想,其實是對它的精煉。三位 Google 作者說的「數據」,在他們的語境裡是 Google 掌握的網路規模語料庫,本身就是當時品質最高的語言數據。他們主張的核心不是「亂七八糟的數據越多越好」,而是「真實世界的豐富數據比人工設計的規則更有效」。
2026 年:三個人都還在 Google
這篇文章發表至今十七年,一個有趣的事實是:三位作者在 2026 年都仍然留在 Google 的體系裡。Halevy 繞了一圈,離開 Google 創業、去 Meta 當 AI 總監,最後在 2024 年回到 Google Cloud 擔任傑出工程師。諾維格同時身兼 Google 研究員和史丹佛大學 HAI(以人為本人工智慧研究中心)的傑出教育研究員,持續關注 AI 教育和 AI Agent 安全議題。佩雷拉在 2023 年隨著 Google Brain 和 DeepMind 合併,成為 Google DeepMind 的副總裁暨 Google Fellow,主導生成式 AI 的應用方向。
他們三個人都親眼見證了自己在 2009 年描述的那個世界如何成真,而且成真的規模遠遠超出他們當年的想像。2009 年他們說的「海量數據」是數十億字的語料庫;2026 年的大型語言模型訓練數據是數兆個 token,規模差了三到四個數量級。他們說的「簡單方法」是 n-gram 統計模型;今天的 Transformer 當然不算簡單,但它的核心精神,用一個通用架構去吸收海量數據,而不是針對每個任務設計專門的規則,跟他們主張的方向完全一致。
他們對了,但不完全對
如果要用一句話總結這篇文章在 AI 思想史上的位置,我會說:它提出了正確的直覺,但不完整的處方。
「數據比演算法重要」這個核心洞見經受住了時間的考驗。從 AlexNet 到 GPT-4,每一次 AI 的重大突破都離不開更多、更好的數據。但這個洞見需要幾個重要的補充。理察.薩頓(Richard Sutton)在 2019 年的 The Bitter Lesson 裡補上了「計算」這一塊,光有數據不夠,還需要足夠的算力去消化它。Kaplan 的 Scaling Laws 補上了「可預測性」,不是越多越好,而是遵循精確的冪律關係。Chinchilla 補上了「平衡」,數據和模型容量要等比擴增。Phi 系列補上了「品質」,精選的數據可以以少勝多。
到了 2026 年,AI 領域的共識大致是:數據品質、數據數量、模型容量、計算量,四者缺一不可,而且需要協調擴展。這比 2009 年的「給我更多數據就好」複雜得多。但回頭看,那篇不到五頁的短文指出了正確的方向,在一個幾乎所有人都還在爭論「哪個演算法比較好」的年代,它說:問錯問題了。