1 minute read

世界模型:AI 從「看懂」到「理解世界」的關鍵一躍


以下為虛構對話,人物與情節為創作,科學內容來源標註於文末。

▌定義

「『想像力比知識更重要』。」Dg 把咖啡放下,「愛因斯坦說的。所以 ChatGPT 能寫詩、能編程,它顯然已經理解這個世界了。」

「沒有。」

「沒有?」

K 沒抬頭。「它預測下一個字。它不知道杯子會掉下去。」

「杯子?」

K 把 Dg 的咖啡往桌緣推了五公分。停在那裡。

「你現在知道再推一下會發生什麼事。」K 說,「你閉著眼睛也知道。你腦子裡有一個世界怎麼運作的模型。語言模型沒有。」

冷氣低低地運轉。Dg 把咖啡挪回安全的位置。


▌潛在空間

「那把每個像素都生成出來不就好了?」Dg 說,「畫面愈細,理解愈深。」

「太貴。而且大部分像素不重要。」K 終於抬頭,「你看一個杯子,腦子記的是『杯子、在桌緣、會掉』,不是每一根反光的位置。」

「所以……」

「世界模型不重建像素。它把觀察壓成一個精簡的表示,在那個空間裡預測下一步。叫潛在空間。」

「潛在空間。」Dg 重複,「就像我不用記住你整張臉,只要記住『K、毒舌、不會笑』就夠了。」

K 看他一眼。沒反駁。


▌可識別性

「『真理是時間的女兒』。」Dg 又開始了,「培根說的。所以這套東西總有一天會被證明對吧——」

「五月就證明了。」K 打斷,「LeJEPA。LeCun 他們的論文。」

「證明什麼?」

「證明在某種條件下,這個架構能把觀察值映射回世界真正的內部結構。不是亂猜的對應,是線性的、可還原的。叫線性可識別性。」

Dg 想了三秒。「等於說……模型學到的東西,跟世界真正的樣子,有一條可靠的對應線。不是它自己瞎編一套。」

「對。」

「那條件是什麼?」

「世界的內部變數要服從高斯分布。論文證明高斯是唯一能保證的那個。」


▌落差

「太好了!」Dg 站起來,「『知識就是力量』,培根也說過。所以 AI 已經懂物理了——」

「IntPhys 2。」K 說。

「什麼?」

「一個測試。給模型看兩段影片,其中一段違反物理規則,要它挑出來。人類接近滿分。」K 停頓,「目前最好的模型,很多情況下只比丟銅板好一點。」

Dg 坐了回去。

「所以理論證明它『能』還原世界,前提是高斯。」Dg 慢慢說,「但真實世界不是乾淨的高斯。所以它證明的是上限,不是現在做得到。」

「嗯。」K 低頭繼續看螢幕。

Dg 沒有再翻名言。他把那杯咖啡,從桌緣移到了正中央。


當 ChatGPT 能寫詩、能編程,卻無法預測一顆球被推下桌後會發生什麼——這不是 bug,而是整個架構的根本限制。2026 年,一批研究者正在用「世界模型」重新定義 AI 的上限:不只預測文字,而是預測現實。


✦ 關鍵亮點

  • 世界模型不預測像素,而是在「潛在空間」中預測狀態變化,計算效率遠高於生成式模型。
  • LeJEPA 是迄今第一個被數學嚴格證明能「還原世界真實結構」的架構,作者包括 Yann LeCun 本人。
  • 2026 年,AMI Labs、World Labs、Google DeepMind、Alibaba 已在世界模型領域累計投入或募集超過 30 億美元
  • 現有最強模型(V-JEPA 2)在直覺物理測試上的表現,仍只比隨機猜測稍好

什麼是世界模型?

一個關於理解的老問題

世界模型是一種機器學習系統,能建構環境的內部表示,並預測在特定行動後環境如何隨時間演變。研究者設計世界模型,目的是讓 AI 代理人能夠規劃、推理和行動,而不需要在真實世界中反覆試錯。

這個定義聽起來抽象,用一個比喻會更清楚:想像你閉上眼睛,有人把一個杯子推到桌緣——你「知道」它會掉下去,而且知道掉下去之後會碎。你不需要親眼看到,因為你腦子裡有一個世界的運作模型。

大型語言模型(LLM)做不到這件事。LLM 操作的是文字輸入,預測的是文字序列中的下一個 token,擅長翻譯或摘要,但缺乏對物理世界的理解。世界模型則不同:它操作感測器輸入(例如像素),在潛在空間中預測狀態變化,支援規劃與因果推理。

歷史比你想的長

這個概念不是最近才有的。Jürgen Schmidhuber 在 1990 年就引入了「世界模型」這個詞,提出用遞歸神經網路從觀察預測未來狀態並訓練代理人。2018 年,David Ha 與 Schmidhuber 重新喚起這個概念,讓代理人學會在自我生成的模擬環境中開車和玩電玩。

真正讓這個領域獲得主流關注的,是 Yann LeCun 2022 年的一篇立場論文。


JEPA 架構:LeCun 的賭注

不預測像素,預測「意義」

LeCun 在 2022 年的論文〈A Path Towards Autonomous Machine Intelligence〉中主張:真正的智慧需要對世界的預測模型,而非純粹的模式比對,並提出聯合嵌入預測架構(JEPA)作為實作基礎。

JEPA 的核心邏輯與生成式模型(例如 Stable Diffusion)截然不同。生成式模型必須重建每一個像素的細節——非常耗資源,而且很多細節根本不重要。JEPA 讓編碼器將觀察壓縮成緊湊的潛在表示,預測器再從當前表示和行動中估計未來的表示,訓練時最小化嵌入空間中的預測誤差。這個方式迴避了逐像素重建的高昂成本。

V-JEPA 2 的里程碑

LeCun 和合作者開發了多個 JEPA 變體,其中 V-JEPA 2 在影片理解和物理推理上達到當時的最先進表現,並支援在陌生環境中的零樣本機器人控制。

架構類型 預測目標 計算成本 物理推理能力
LLM(GPT 系列) 下一個 token 高(文字)
生成式模型(Diffusion) 每個像素 極高 有限
JEPA 潛在空間嵌入 中等 較強
世界模型(Genie 3) 潛在空間 + 可互動模擬 高(訓練),低(推理) 設計目標

LeJEPA:從「會用」到「能證明」

一個數學保證

2026 年 5 月,Klindt、LeCun 與 Balestriero 在 arXiv 發表了論文《When Does LeJEPA Learn a World Model?》,這篇論文的重要性在於:它不只展示 LeJEPA 效果好,而是從數學上證明它在什麼條件下一定能還原世界的真實結構。

研究者證明,LeJEPA(對齊加上高斯正規化)能從非線性觀察中線性還原世界的潛在變數——這個性質稱為「線性可識別性」,在一大類潛在變數服從穩態加性雜訊轉移的世界中均成立。

高斯假設是關鍵

研究的核心結論是:在所有符合條件的世界中,高斯分布是唯一能保證此性質成立的潛在分布。正方向的證明依賴譜分解,每一個非線性程度都被對齊機制嚴格懲罰,使線性映射成為最佳解;反方向則排除了所有非高斯的替代方案。

用白話說:如果世界的「內部變數」服從高斯分布,LeJEPA 就能保證把觀察值(例如影像像素)映射回正確的世界結構。這是整個 JEPA 研究路線迄今最紮實的理論支撐。

研究者進一步證明,線性正交可識別性能支援最優的潛在空間規劃,並以從二維範例到 1024 維潛在變數的實驗加以驗證,包括像素輸入的機器人控制任務。


競爭格局:百億美元的世界模型軍備競賽

資本的判斷

目前世界模型領域的主要投資包括:General Intuition 完成 1.337 億美元種子輪、World Labs 募集 10 億美元、AMI Labs 募集 10.3 億美元。

AMI Labs 是 LeCun 本人創立的公司,押注 JEPA 路線。World Labs 則由 AI 界的另一位重量級人物——「AI 教母」李飛飛共同創辦。

Genie 3 與 Waymo 的合作

Google DeepMind 於 2025 年 8 月推出 Genie 3,能根據文字提示以每秒 24 幀產生可即時互動的擬真世界,支援持久性三維場景。

Waymo 在 2026 年 2 月採用 Genie 3,建立了專門用於自動駕駛模擬的世界模型,能生成同步的攝影機與光達輸出,並製造現實路況中罕見的邊緣情境——包括龍捲風與異常行人行為。

Alibaba 也進場了

2026 年 4 月,阿里巴巴發布 Happy Oyster 世界模型,主打即時與流暢的世界生成,支援根據文字和圖像提示建構世界的「導演模式」,以及探索生成世界的「漫遊模式」,能生成長達三分鐘的世界內影片片段。同月,World Labs 發布 Spark 2.0,一個針對智慧型手機等級裝置的開源 3D 高斯潑濺渲染引擎。


應用場景:不只是遊戲

機器人與自動駕駛

世界模型在機器人領域的核心優勢是:代理人在模擬環境中訓練,再將技能遷移至實體世界,大幅降低危險或昂貴的真實測試需求。自動駕駛車輛則利用世界模型測試罕見事件,訓練規劃器而無需上路。

遊戲與科學模擬

互動娛樂方面,Genie 3 讓使用者能從簡單描述生成可遊玩環境,遊戲工作室可更快速地進行關卡原型設計。科學模擬方面,研究者能大規模建模物理系統或生物程序;城市規劃者能在精確數位孿生中測試策略。


現在的瓶頸在哪裡?

成果亮眼,但誠實面對現狀:基準測試的結果相當清醒。

IntPhys 2 測試模型偵測物理違規的能力,以呈現出現違反物理規則的影片對來評估。人類得分接近 100%,而 V-JEPA 2 在許多條件下的表現僅略優於隨機猜測。

這個落差揭示了一個根本問題:現有的世界模型在直覺物理上仍遠遠不及人類常識。LeJEPA 的數學保證在「高斯世界」下成立,但真實世界顯然不是純粹的高斯過程。從理論保證到真實世界的穩健泛化,仍是未解的核心挑戰。


常見問題 FAQ

Q1:世界模型和 ChatGPT 有什麼不同?

最根本的差異在於「預測的對象」。ChatGPT 預測文字序列,對物理世界沒有表示;世界模型預測感測器輸入的狀態變化,能支援物理推理和行動規劃。兩者可以組合:LLM 負責語言指令,世界模型負責低階控制。

Q2:LeJEPA 的「線性可識別性」在實際中有什麼意義?

它意味著模型學到的潛在表示,與世界的真實內部結構之間存在可信的線性對應關係,而不是任意的扭曲映射。這讓基於潛在空間的規劃在理論上可以最優,而不只是工程上的近似。

Q3:高斯假設是否過於理想化?

是個合理的質疑。論文本身也提供了「近似可識別性」的結果,說明偏離高斯假設時保證會優雅地衰退,而非直接失效。但真實世界偏離高斯有多遠,仍是開放問題。

Q4:Genie 3 和 JEPA 是同一條技術路線嗎?

不完全是。Genie 3 是生成式世界模型,目標是產生可互動的視覺輸出;JEPA 系列則更偏向表示學習,目標是建構用於規劃的潛在世界模型。兩條路線都走向「理解世界」,但方法論不同。

Q5:這些發展對一般使用者有什麼影響?

短期內最直接的影響在自動駕駛和機器人——更安全的訓練流程、更能應對邊緣情況的系統。中期影響包括遊戲體驗和個人化 AI 代理。長期而言,世界模型可能是實現真正通用人工智慧的必要基礎設施。


結論

世界模型並不是一個新想法——它在 1990 年代就已萌芽,卻花了三十年才等到足夠的算力和資本讓它認真被對待。2026 年的局面是:理論剛剛有了第一個數學保證(LeJEPA),工程端已有多個量級的資金投入(AMI、World Labs、Genie 3),但在最基本的直覺物理測試上,最好的模型表現仍只比猜測略好。

這個落差本身就是值得認真思考的訊號:AI 的下一個真正突破,或許不在語言,而在於讓機器學會「世界是怎麼運作的」。


推薦閱讀


參考資料來源