世界模型:AI 從「看懂」到「理解世界」的關鍵一躍

以下為虛構對話,人物與情節為創作,科學內容來源標註於文末。
▌定義
「『想像力比知識更重要』。」Dg 把咖啡放下,「愛因斯坦說的。所以 ChatGPT 能寫詩、能編程,它顯然已經理解這個世界了。」
「沒有。」
「沒有?」
K 沒抬頭。「它預測下一個字。它不知道杯子會掉下去。」
「杯子?」
K 把 Dg 的咖啡往桌緣推了五公分。停在那裡。
「你現在知道再推一下會發生什麼事。」K 說,「你閉著眼睛也知道。你腦子裡有一個世界怎麼運作的模型。語言模型沒有。」
冷氣低低地運轉。Dg 把咖啡挪回安全的位置。
▌潛在空間
「那把每個像素都生成出來不就好了?」Dg 說,「畫面愈細,理解愈深。」
「太貴。而且大部分像素不重要。」K 終於抬頭,「你看一個杯子,腦子記的是『杯子、在桌緣、會掉』,不是每一根反光的位置。」
「所以……」
「世界模型不重建像素。它把觀察壓成一個精簡的表示,在那個空間裡預測下一步。叫潛在空間。」
「潛在空間。」Dg 重複,「就像我不用記住你整張臉,只要記住『K、毒舌、不會笑』就夠了。」
K 看他一眼。沒反駁。
▌可識別性
「『真理是時間的女兒』。」Dg 又開始了,「培根說的。所以這套東西總有一天會被證明對吧——」
「五月就證明了。」K 打斷,「LeJEPA。LeCun 他們的論文。」
「證明什麼?」
「證明在某種條件下,這個架構能把觀察值映射回世界真正的內部結構。不是亂猜的對應,是線性的、可還原的。叫線性可識別性。」
Dg 想了三秒。「等於說……模型學到的東西,跟世界真正的樣子,有一條可靠的對應線。不是它自己瞎編一套。」
「對。」
「那條件是什麼?」
「世界的內部變數要服從高斯分布。論文證明高斯是唯一能保證的那個。」
▌落差
「太好了!」Dg 站起來,「『知識就是力量』,培根也說過。所以 AI 已經懂物理了——」
「IntPhys 2。」K 說。
「什麼?」
「一個測試。給模型看兩段影片,其中一段違反物理規則,要它挑出來。人類接近滿分。」K 停頓,「目前最好的模型,很多情況下只比丟銅板好一點。」
Dg 坐了回去。
「所以理論證明它『能』還原世界,前提是高斯。」Dg 慢慢說,「但真實世界不是乾淨的高斯。所以它證明的是上限,不是現在做得到。」
「嗯。」K 低頭繼續看螢幕。
Dg 沒有再翻名言。他把那杯咖啡,從桌緣移到了正中央。
當 ChatGPT 能寫詩、能編程,卻無法預測一顆球被推下桌後會發生什麼——這不是 bug,而是整個架構的根本限制。2026 年,一批研究者正在用「世界模型」重新定義 AI 的上限:不只預測文字,而是預測現實。
✦ 關鍵亮點
- 世界模型不預測像素,而是在「潛在空間」中預測狀態變化,計算效率遠高於生成式模型。
- LeJEPA 是迄今第一個被數學嚴格證明能「還原世界真實結構」的架構,作者包括 Yann LeCun 本人。
- 2026 年,AMI Labs、World Labs、Google DeepMind、Alibaba 已在世界模型領域累計投入或募集超過 30 億美元。
- 現有最強模型(V-JEPA 2)在直覺物理測試上的表現,仍只比隨機猜測稍好。
什麼是世界模型?
一個關於理解的老問題
世界模型是一種機器學習系統,能建構環境的內部表示,並預測在特定行動後環境如何隨時間演變。研究者設計世界模型,目的是讓 AI 代理人能夠規劃、推理和行動,而不需要在真實世界中反覆試錯。
這個定義聽起來抽象,用一個比喻會更清楚:想像你閉上眼睛,有人把一個杯子推到桌緣——你「知道」它會掉下去,而且知道掉下去之後會碎。你不需要親眼看到,因為你腦子裡有一個世界的運作模型。
大型語言模型(LLM)做不到這件事。LLM 操作的是文字輸入,預測的是文字序列中的下一個 token,擅長翻譯或摘要,但缺乏對物理世界的理解。世界模型則不同:它操作感測器輸入(例如像素),在潛在空間中預測狀態變化,支援規劃與因果推理。
歷史比你想的長
這個概念不是最近才有的。Jürgen Schmidhuber 在 1990 年就引入了「世界模型」這個詞,提出用遞歸神經網路從觀察預測未來狀態並訓練代理人。2018 年,David Ha 與 Schmidhuber 重新喚起這個概念,讓代理人學會在自我生成的模擬環境中開車和玩電玩。
真正讓這個領域獲得主流關注的,是 Yann LeCun 2022 年的一篇立場論文。
JEPA 架構:LeCun 的賭注
不預測像素,預測「意義」
LeCun 在 2022 年的論文〈A Path Towards Autonomous Machine Intelligence〉中主張:真正的智慧需要對世界的預測模型,而非純粹的模式比對,並提出聯合嵌入預測架構(JEPA)作為實作基礎。
JEPA 的核心邏輯與生成式模型(例如 Stable Diffusion)截然不同。生成式模型必須重建每一個像素的細節——非常耗資源,而且很多細節根本不重要。JEPA 讓編碼器將觀察壓縮成緊湊的潛在表示,預測器再從當前表示和行動中估計未來的表示,訓練時最小化嵌入空間中的預測誤差。這個方式迴避了逐像素重建的高昂成本。
V-JEPA 2 的里程碑
LeCun 和合作者開發了多個 JEPA 變體,其中 V-JEPA 2 在影片理解和物理推理上達到當時的最先進表現,並支援在陌生環境中的零樣本機器人控制。
| 架構類型 | 預測目標 | 計算成本 | 物理推理能力 |
|---|---|---|---|
| LLM(GPT 系列) | 下一個 token | 高(文字) | 弱 |
| 生成式模型(Diffusion) | 每個像素 | 極高 | 有限 |
| JEPA | 潛在空間嵌入 | 中等 | 較強 |
| 世界模型(Genie 3) | 潛在空間 + 可互動模擬 | 高(訓練),低(推理) | 設計目標 |
LeJEPA:從「會用」到「能證明」
一個數學保證
2026 年 5 月,Klindt、LeCun 與 Balestriero 在 arXiv 發表了論文《When Does LeJEPA Learn a World Model?》,這篇論文的重要性在於:它不只展示 LeJEPA 效果好,而是從數學上證明它在什麼條件下一定能還原世界的真實結構。
研究者證明,LeJEPA(對齊加上高斯正規化)能從非線性觀察中線性還原世界的潛在變數——這個性質稱為「線性可識別性」,在一大類潛在變數服從穩態加性雜訊轉移的世界中均成立。
高斯假設是關鍵
研究的核心結論是:在所有符合條件的世界中,高斯分布是唯一能保證此性質成立的潛在分布。正方向的證明依賴譜分解,每一個非線性程度都被對齊機制嚴格懲罰,使線性映射成為最佳解;反方向則排除了所有非高斯的替代方案。
用白話說:如果世界的「內部變數」服從高斯分布,LeJEPA 就能保證把觀察值(例如影像像素)映射回正確的世界結構。這是整個 JEPA 研究路線迄今最紮實的理論支撐。
研究者進一步證明,線性正交可識別性能支援最優的潛在空間規劃,並以從二維範例到 1024 維潛在變數的實驗加以驗證,包括像素輸入的機器人控制任務。
競爭格局:百億美元的世界模型軍備競賽
資本的判斷
目前世界模型領域的主要投資包括:General Intuition 完成 1.337 億美元種子輪、World Labs 募集 10 億美元、AMI Labs 募集 10.3 億美元。
AMI Labs 是 LeCun 本人創立的公司,押注 JEPA 路線。World Labs 則由 AI 界的另一位重量級人物——「AI 教母」李飛飛共同創辦。
Genie 3 與 Waymo 的合作
Google DeepMind 於 2025 年 8 月推出 Genie 3,能根據文字提示以每秒 24 幀產生可即時互動的擬真世界,支援持久性三維場景。
Waymo 在 2026 年 2 月採用 Genie 3,建立了專門用於自動駕駛模擬的世界模型,能生成同步的攝影機與光達輸出,並製造現實路況中罕見的邊緣情境——包括龍捲風與異常行人行為。
Alibaba 也進場了
2026 年 4 月,阿里巴巴發布 Happy Oyster 世界模型,主打即時與流暢的世界生成,支援根據文字和圖像提示建構世界的「導演模式」,以及探索生成世界的「漫遊模式」,能生成長達三分鐘的世界內影片片段。同月,World Labs 發布 Spark 2.0,一個針對智慧型手機等級裝置的開源 3D 高斯潑濺渲染引擎。
應用場景:不只是遊戲
機器人與自動駕駛
世界模型在機器人領域的核心優勢是:代理人在模擬環境中訓練,再將技能遷移至實體世界,大幅降低危險或昂貴的真實測試需求。自動駕駛車輛則利用世界模型測試罕見事件,訓練規劃器而無需上路。
遊戲與科學模擬
互動娛樂方面,Genie 3 讓使用者能從簡單描述生成可遊玩環境,遊戲工作室可更快速地進行關卡原型設計。科學模擬方面,研究者能大規模建模物理系統或生物程序;城市規劃者能在精確數位孿生中測試策略。
現在的瓶頸在哪裡?
成果亮眼,但誠實面對現狀:基準測試的結果相當清醒。
IntPhys 2 測試模型偵測物理違規的能力,以呈現出現違反物理規則的影片對來評估。人類得分接近 100%,而 V-JEPA 2 在許多條件下的表現僅略優於隨機猜測。
這個落差揭示了一個根本問題:現有的世界模型在直覺物理上仍遠遠不及人類常識。LeJEPA 的數學保證在「高斯世界」下成立,但真實世界顯然不是純粹的高斯過程。從理論保證到真實世界的穩健泛化,仍是未解的核心挑戰。
常見問題 FAQ
Q1:世界模型和 ChatGPT 有什麼不同?
最根本的差異在於「預測的對象」。ChatGPT 預測文字序列,對物理世界沒有表示;世界模型預測感測器輸入的狀態變化,能支援物理推理和行動規劃。兩者可以組合:LLM 負責語言指令,世界模型負責低階控制。
Q2:LeJEPA 的「線性可識別性」在實際中有什麼意義?
它意味著模型學到的潛在表示,與世界的真實內部結構之間存在可信的線性對應關係,而不是任意的扭曲映射。這讓基於潛在空間的規劃在理論上可以最優,而不只是工程上的近似。
Q3:高斯假設是否過於理想化?
是個合理的質疑。論文本身也提供了「近似可識別性」的結果,說明偏離高斯假設時保證會優雅地衰退,而非直接失效。但真實世界偏離高斯有多遠,仍是開放問題。
Q4:Genie 3 和 JEPA 是同一條技術路線嗎?
不完全是。Genie 3 是生成式世界模型,目標是產生可互動的視覺輸出;JEPA 系列則更偏向表示學習,目標是建構用於規劃的潛在世界模型。兩條路線都走向「理解世界」,但方法論不同。
Q5:這些發展對一般使用者有什麼影響?
短期內最直接的影響在自動駕駛和機器人——更安全的訓練流程、更能應對邊緣情況的系統。中期影響包括遊戲體驗和個人化 AI 代理。長期而言,世界模型可能是實現真正通用人工智慧的必要基礎設施。
結論
世界模型並不是一個新想法——它在 1990 年代就已萌芽,卻花了三十年才等到足夠的算力和資本讓它認真被對待。2026 年的局面是:理論剛剛有了第一個數學保證(LeJEPA),工程端已有多個量級的資金投入(AMI、World Labs、Genie 3),但在最基本的直覺物理測試上,最好的模型表現仍只比猜測略好。
這個落差本身就是值得認真思考的訊號:AI 的下一個真正突破,或許不在語言,而在於讓機器學會「世界是怎麼運作的」。