AI 技術前沿 2026 年 2 月 10 日

Tesla AI 掌門人揭秘：一個神經網路如何同時教會汽車和機器人理解世界

Tesla AI 副總裁 Ashok Elluswamy 在 ScaledML 大會上，詳細說明 Tesla 如何用單一端到端神經網路取代模組化架構，實現從自駕到人形機器人的基礎模型統一。從 Austin 無人計程車實際上路的成果，到 20 億 token 壓縮成兩個動作的技術挑戰，再到神經網路世界模擬器的突破，這場演講揭開了 Tesla AI 路線的完整技術邏輯。

來源： ScaledML 2026

本文整理自 ScaledML 2026 大會（2026 年 1 月）的演講。

封面圖

Austin 街頭，一輛沒有駕駛的 Tesla

2026 年 1 月，Tesla 的無人計程車服務在德州 Austin 正式對公眾開放。乘客用手機叫車，車子自己開過來，沒有安全員坐在駕駛座上，就這樣載著你穿越市區的密集車流。這不是封閉園區裡的展示，是真正的公共道路、真正的陌生乘客、真正的日常交通。

在 ScaledML 2026 大會上，Tesla AI 軟體副總裁 Ashok Elluswamy 站在台上，播放了 Austin 街頭的實況影片。這位 2014 年就加入 Tesla、擔任 Autopilot 團隊第一位軟體工程師的技術老將，在過去 12 年間一路從工程師做到掌管 Tesla 整個 AI 軟體部門的副總裁。2025 年，他又接下了 Optimus 人形機器人計畫的領導權，成為 Tesla 自駕與機器人兩大 AI 核心的統一掌舵者。

他這場演講的核心訊息很明確：Tesla 的自駕系統不只是一套駕駛軟體，它是一個通用的機器人基礎模型。同一個神經網路架構，同時服務汽車和人形機器人。而這一切的起點，是 Tesla 十年前就做出的一個技術抉擇：端到端（end-to-end）架構。

為什麼不用模組化？因為你沒辦法寫一個「雞腿偵測器」

自駕車產業長期以來的主流做法是模組化架構：先用感知模組辨識物體，再用預測模組判斷物體會怎麼移動，最後用規劃模組決定車子該怎麼開。聽起來很合理，符合軟體工程「關注點分離」的原則。但 Elluswamy 認為，這套邏輯在真實世界的機器人問題上根本行不通。

他舉了一個水坑的例子。一般的規則會告訴車子「不要開進對向車道」，另一條規則會說「避開水坑」。但如果水坑就在你的車道上，而對向車道是空的呢？這時你得同時考慮水坑的深度、對向有沒有來車、視線是否被遮擋，甚至對向車道的彎道角度。這些因素彼此糾纏，沒辦法拆開來獨立處理。你每新增一條規則，就會跟其他規則產生新的衝突，永遠補不完。

更生動的例子來自一段 FSD 的實際行車紀錄。畫面左側，一群雞正在過馬路，車子耐心等待。其中有一隻落單的雞走得比較慢，車子繼續等。但在另一段影片裡，一群鵝站在路中間，完全沒有要動的意思。這時車子的反應不一樣了，它倒車繞道而行。兩個場景看起來很像，都是「路上有鳥」，但正確的決策完全不同。差別在哪裡？在那些鳥的腿怎麼動。正在走的雞，你等牠過去就好；站著不動的鵝，你等下去只是浪費時間。

Elluswamy 半開玩笑地問：如果用模組化架構，我們是不是要做一個雞腿偵測器，然後接一個雞行為預測模組，再接一個「雞過馬路規劃器」？這當然荒謬。但端到端神經網路不需要這些拆解，它直接從像素學到控制，從雞腿的移動模式直接推導出「等待」或「繞行」的決策。

這就是 Tesla 選擇端到端的根本原因：真實世界太複雜，複雜到你沒辦法事先定義好所有的感知分類和決策規則。與其用人類的邏輯去拆解問題，不如讓一個夠大的神經網路從資料中自己學會怎麼處理。用 Elluswamy 的話來說，這是站在 Bitter Lesson 的正確一邊，把賭注下在規模擴展（scaling）上，而不是人工設計的捷徑上。

20 億 token 進去，兩個動作出來

端到端聽起來很美好，但為什麼不是所有人都這樣做？Elluswamy 直指三大技術挑戰，第一個就是維度詛咒（curse of dimensionality）。

Tesla 的車上有八顆攝影機，每顆五百萬像素，以高幀率持續拍攝。加上導航指令、車速、方向盤角度、音訊等感測資訊，如果取 30 秒的歷史視窗，輸入到神經網路的資料量大約相當於 20 億個 token。而輸出呢？只有兩個數字：下一個時間步的方向盤角度，和加速/煞車力度。

這意味著神經網路要做的事情，本質上是一次超大規模的資訊壓縮。從 20 億個 token 裡面，找出真正跟駕駛決策有因果關係的那些訊號。難的地方在於，網路很容易學到虛假的相關性。比如「前方樹枝在晃動」和「我踩了煞車」之間可能有時間上的巧合，但真正的原因是「前車打了方向燈」。要讓網路學到正確的因果關係，而不是這些偽相關，需要大量且多樣的訓練資料。

Tesla 在這件事上有一個別人很難複製的優勢：它的車隊。全球數百萬輛 Tesla 每天都在路上跑，整個車隊一天能產生相當於 500 年份的駕駛資料。當然，大部分資料是無聊的高速公路直線行駛，沒什麼訓練價值。所以 Tesla 的做法是在車端就做篩選，只在遇到「有趣」的場景時才上傳資料。什麼叫有趣？消防車闖紅燈、校車臨時停車、前車突然失控打滑，這些事件每天都在發生，只是頻率極低。但當你有數百萬輛車當哨兵，就能快速累積起別人要花數十年才能收集到的罕見場景。

Elluswamy 播放了一段 FSD 的行車紀錄來說明這種資料的價值。影片中，前方車輛突然失控滑向護欄。關鍵在於 FSD 系統的反應時間：它在前車還沒撞上護欄之前就開始煞車了。從事後的速度圖表可以看到，系統在前車只是偏離車道的階段就判斷出「這不是正常的變道，有什麼不對勁」，提前數秒啟動了煞車。這種預判能力，來自於大量類似場景的訓練，讓網路學會了「車輛偏離軌跡的角速度超過正常變道」這類微妙的訊號。

不是黑盒子：3D 推理與世界模擬器

端到端系統常被質疑是黑盒子，出了問題沒辦法除錯。Elluswamy 花了相當的篇幅回應這個質疑，展示了 Tesla 如何在端到端架構內部加入各種可觀測的「探針」。

第一種是 3D 幾何推理。Tesla 把 Gaussian Splatting（高斯散射）技術整合進了駕駛神經網路。傳統的 Gaussian Splatting 需要 30 分鐘以上來重建一個 3D 場景，而且只在訓練視角附近看起來正常，偏離一點就會崩壞。Tesla 自己開發的生成式 Gaussian Splatting 只需要幾百毫秒就能完成，而且在偏離訓練視角後仍然能產生語義正確的 3D 場景，包括車輛的種類、形狀都能正確生成。這個 3D 重建能力直接嵌在駕駛神經網路裡面，代表網路不只是在做 2D 的圖像辨識，它真的理解了周圍世界的三維結構。

第二種是文字推理。面對一個繞道標誌，系統可以產生混合了語言和空間指向的推理：「這裡有繞道標誌，我必須左轉。」這種推理不需要在每次推論（inference）時都即時產生，它可以在訓練階段用來強化網路的理解能力，推論時則以隱式的方式保留在網路權重裡。

最讓人印象深刻的是第三個方向：神經網路世界模擬器。Tesla 訓練了一個世界模型（world model），輸入當前的八顆攝影機影像加上控制動作（方向盤角度、油門/煞車），輸出下一個時間步的八顆攝影機影像。也就是說，給它一個駕駛場景和一個動作，它能「想像」出接下來世界會變成什麼樣子。

Elluswamy 在台上播放的展示影片很有說服力。世界模擬器以 36 FPS、五百萬像素的解析度，同時生成八顆攝影機的畫面，而且是連續一分鐘以上的長序列生成。畫面中的車輛在不同攝影機之間保持一致，交通流動看起來完全真實。但每一個像素都是神經網路憑空產生的，沒有一個真實像素。

這個世界模擬器的用途是評估。Tesla 可以拿歷史上發生過問題的場景，用世界模擬器重新生成，然後讓新版本的駕駛神經網路在裡面「重考一次」。比如舊版本曾經開得離行人太近被人類駕駛介入，新版本在模擬器裡重跑同一場景時，能不能正確地保持更大的距離？更進一步，Tesla 還能在模擬場景中注入對抗性的修改，比如在一段直線行駛的影片裡加入突然衝出的行人，測試系統對從未見過的極端場景的反應。

不只是自駕：通往通用機器人的基礎模型

整場演講聽到這裡，你可能覺得 Elluswamy 在談自駕車。但他在最後丟出了一個更大的訊息：這套端到端駕駛神經網路不只是一個駕駛模型，它是一個機器人基礎模型（foundational model for robotics）。世界模擬器也一樣。兩者都在跨機器人類型的通用資料上訓練，駕駛資料和機器人資料混在一起餵給同一個架構。

他展示了同一個影片生成網路如何泛化到室內場景，為 Optimus 人形機器人產生可供行走的環境。這些場景也是可控的，你可以指定「直走」「左轉」「右轉」的動作，影片生成會正確反映這些指令。更令人注目的是操作（manipulation）任務的示範：同一個架構可以生成機器人手臂打開抽屜、拿起物品的影片，這對於訓練機器人的精細動作能力至關重要。

這背後的邏輯其實不難理解。Tesla 花了十多年收集駕駛資料、訓練模型，過程中網路學會的不只是「怎麼開車」，而是更底層的物理世界理解：光影怎麼變化、物體有多遠、一個正在移動的東西接下來會往哪裡去。這些能力不專屬於開車這件事，它們是任何在物理世界中行動的機器人都需要的。從這個角度看，把自駕模型延伸到人形機器人，不是硬把兩個不相干的東西綁在一起，而是讓十年累積的物理世界知識有了更多的應用出口。

我的觀察：Bitter Lesson 在真實世界的最大規模驗證

Elluswamy 在演講中多次提到 Richard Sutton（理察．薩頓）的 Bitter Lesson（苦澀的教訓），這篇 2019 年的短文主張：AI 研究歷史一再證明，利用大規模運算的通用方法最終都會打敗依賴人類知識的精巧設計。Tesla 的自駕路線可以說是這個觀點在真實世界機器人領域最大規模的實驗。

在 2024 年以前，Tesla 的純視覺端到端路線面臨很大的質疑。Waymo 用 LiDAR 加高精地圖的方案已經在舊金山商業運營多年，而 Tesla 的 FSD 還時不時需要人類介入。但到了 2026 年初，Austin 無人計程車的正式上路改變了這個敘事。Tesla 證明了純靠攝影機和 AI，不需要 LiDAR、不需要高精地圖，也能實現完全無人的商業化載客服務。

這不是說 Waymo 的路線就是錯的。Waymo 率先證明了無人計程車的商業可行性，這個先行者的貢獻不容否認。但兩條路線的成本結構和擴展性差異正在浮現。Waymo 每拓展到一個新城市，都需要重新建置高精地圖，這是一筆可觀的前期投入。Tesla 的方案理論上只要 AI 模型夠強，就能泛化到任何有道路的地方，不需要針對特定城市做額外的地圖建置。

對臺灣讀者來說，還有一個值得關注的產業面向。Tesla 的 FSD 晶片由台積電代工，隨著 Tesla 擴大 Cybercab 和 Optimus 的量產規模，對先進製程晶片的需求只會持續增長。自駕和機器人的 AI 推論晶片，正在成為台積電客戶名單上越來越重要的一塊。

回到 Elluswamy 在 Q&A 環節被問到的那個問題：為什麼你們這麼確信只用攝影機就能解決自駕？他的回答很直接，大意是：你今天怎麼來到這裡的？多數人是用自己的眼睛開車來的。現在已經是 2026 年了，自駕應該用攝影機來解決，就像人類和動物用眼睛來理解世界一樣。自駕不是感測器問題，是 AI 問題。

這句話濃縮了 Tesla AI 團隊過去十年的核心信念。至於這個信念能走多遠，Austin 的街頭正在給出答案。