世界模型：AI 從「看懂」到「理解世界」的關鍵一躍

2026-05-30 12:00:00 9 分鐘閱讀

以下為虛構對話，人物與情節為創作，科學內容來源標註於文末。

▌定義

「『想像力比知識更重要』。」Dg 把咖啡放下，「愛因斯坦說的。所以 ChatGPT 能寫詩、能編程，它顯然已經理解這個世界了。」

「沒有。」

「沒有？」

K 沒抬頭。「它預測下一個字。它不知道杯子會掉下去。」

「杯子？」

K 把 Dg 的咖啡往桌緣推了五公分。停在那裡。

「你現在知道再推一下會發生什麼事。」K 說，「你閉著眼睛也知道。你腦子裡有一個世界怎麼運作的模型。語言模型沒有。」

冷氣低低地運轉。Dg 把咖啡挪回安全的位置。

▌潛在空間

「那把每個像素都生成出來不就好了？」Dg 說，「畫面愈細，理解愈深。」

「太貴。而且大部分像素不重要。」K 終於抬頭，「你看一個杯子，腦子記的是『杯子、在桌緣、會掉』，不是每一根反光的位置。」

「所以……」

「世界模型不重建像素。它把觀察壓成一個精簡的表示，在那個空間裡預測下一步。叫潛在空間。」

「潛在空間。」Dg 重複，「就像我不用記住你整張臉，只要記住『K、毒舌、不會笑』就夠了。」

K 看他一眼。沒反駁。

▌可識別性

「『真理是時間的女兒』。」Dg 又開始了，「培根說的。所以這套東西總有一天會被證明對吧——」

「五月就證明了。」K 打斷，「LeJEPA。LeCun 他們的論文。」

「證明什麼？」

「證明在某種條件下，這個架構能把觀察值映射回世界真正的內部結構。不是亂猜的對應，是線性的、可還原的。叫線性可識別性。」

Dg 想了三秒。「等於說……模型學到的東西，跟世界真正的樣子，有一條可靠的對應線。不是它自己瞎編一套。」

「對。」

「那條件是什麼？」

「世界的內部變數要服從高斯分布。論文證明高斯是唯一能保證的那個。」

▌落差

「太好了！」Dg 站起來，「『知識就是力量』，培根也說過。所以 AI 已經懂物理了——」

「IntPhys 2。」K 說。

「什麼？」

「一個測試。給模型看兩段影片，其中一段違反物理規則，要它挑出來。人類接近滿分。」K 停頓，「目前最好的模型，很多情況下只比丟銅板好一點。」

Dg 坐了回去。

「所以理論證明它『能』還原世界，前提是高斯。」Dg 慢慢說，「但真實世界不是乾淨的高斯。所以它證明的是上限，不是現在做得到。」

「嗯。」K 低頭繼續看螢幕。

Dg 沒有再翻名言。他把那杯咖啡，從桌緣移到了正中央。

當 ChatGPT 能寫詩、能編程，卻無法預測一顆球被推下桌後會發生什麼——這不是 bug，而是整個架構的根本限制。2026 年，一批研究者正在用「世界模型」重新定義 AI 的上限：不只預測文字，而是預測現實。

✦ 關鍵亮點

世界模型不預測像素，而是在「潛在空間」中預測狀態變化，計算效率遠高於生成式模型。
LeJEPA 是迄今第一個被數學嚴格證明能「還原世界真實結構」的架構，作者包括 Yann LeCun 本人。
2026 年，AMI Labs、World Labs、Google DeepMind、Alibaba 已在世界模型領域累計投入或募集超過 30 億美元。
現有最強模型（V-JEPA 2）在直覺物理測試上的表現，仍只比隨機猜測稍好。

什麼是世界模型？

一個關於理解的老問題

世界模型是一種機器學習系統，能建構環境的內部表示，並預測在特定行動後環境如何隨時間演變。研究者設計世界模型，目的是讓 AI 代理人能夠規劃、推理和行動，而不需要在真實世界中反覆試錯。

這個定義聽起來抽象，用一個比喻會更清楚：想像你閉上眼睛，有人把一個杯子推到桌緣——你「知道」它會掉下去，而且知道掉下去之後會碎。你不需要親眼看到，因為你腦子裡有一個世界的運作模型。

大型語言模型（LLM）做不到這件事。LLM 操作的是文字輸入，預測的是文字序列中的下一個 token，擅長翻譯或摘要，但缺乏對物理世界的理解。世界模型則不同：它操作感測器輸入（例如像素），在潛在空間中預測狀態變化，支援規劃與因果推理。

歷史比你想的長

這個概念不是最近才有的。Jürgen Schmidhuber 在 1990 年就引入了「世界模型」這個詞，提出用遞歸神經網路從觀察預測未來狀態並訓練代理人。2018 年，David Ha 與 Schmidhuber 重新喚起這個概念，讓代理人學會在自我生成的模擬環境中開車和玩電玩。

真正讓這個領域獲得主流關注的，是 Yann LeCun 2022 年的一篇立場論文。

JEPA 架構：LeCun 的賭注

不預測像素，預測「意義」

LeCun 在 2022 年的論文〈A Path Towards Autonomous Machine Intelligence〉中主張：真正的智慧需要對世界的預測模型，而非純粹的模式比對，並提出聯合嵌入預測架構（JEPA）作為實作基礎。

JEPA 的核心邏輯與生成式模型（例如 Stable Diffusion）截然不同。生成式模型必須重建每一個像素的細節——非常耗資源，而且很多細節根本不重要。JEPA 讓編碼器將觀察壓縮成緊湊的潛在表示，預測器再從當前表示和行動中估計未來的表示，訓練時最小化嵌入空間中的預測誤差。這個方式迴避了逐像素重建的高昂成本。

V-JEPA 2 的里程碑

LeCun 和合作者開發了多個 JEPA 變體，其中 V-JEPA 2 在影片理解和物理推理上達到當時的最先進表現，並支援在陌生環境中的零樣本機器人控制。

架構類型	預測目標	計算成本	物理推理能力
LLM（GPT 系列）	下一個 token	高（文字）	弱
生成式模型（Diffusion）	每個像素	極高	有限
JEPA	潛在空間嵌入	中等	較強
世界模型（Genie 3）	潛在空間 + 可互動模擬	高（訓練），低（推理）	設計目標

LeJEPA：從「會用」到「能證明」

一個數學保證

2026 年 5 月，Klindt、LeCun 與 Balestriero 在 arXiv 發表了論文《When Does LeJEPA Learn a World Model?》，這篇論文的重要性在於：它不只展示 LeJEPA 效果好，而是從數學上證明它在什麼條件下一定能還原世界的真實結構。

研究者證明，LeJEPA（對齊加上高斯正規化）能從非線性觀察中線性還原世界的潛在變數——這個性質稱為「線性可識別性」，在一大類潛在變數服從穩態加性雜訊轉移的世界中均成立。

高斯假設是關鍵

研究的核心結論是：在所有符合條件的世界中，高斯分布是唯一能保證此性質成立的潛在分布。正方向的證明依賴譜分解，每一個非線性程度都被對齊機制嚴格懲罰，使線性映射成為最佳解；反方向則排除了所有非高斯的替代方案。

用白話說：如果世界的「內部變數」服從高斯分布，LeJEPA 就能保證把觀察值（例如影像像素）映射回正確的世界結構。這是整個 JEPA 研究路線迄今最紮實的理論支撐。

研究者進一步證明，線性正交可識別性能支援最優的潛在空間規劃，並以從二維範例到 1024 維潛在變數的實驗加以驗證，包括像素輸入的機器人控制任務。

競爭格局：百億美元的世界模型軍備競賽

資本的判斷

目前世界模型領域的主要投資包括：General Intuition 完成 1.337 億美元種子輪、World Labs 募集 10 億美元、AMI Labs 募集 10.3 億美元。

AMI Labs 是 LeCun 本人創立的公司，押注 JEPA 路線。World Labs 則由 AI 界的另一位重量級人物——「AI 教母」李飛飛共同創辦。

Genie 3 與 Waymo 的合作

Google DeepMind 於 2025 年 8 月推出 Genie 3，能根據文字提示以每秒 24 幀產生可即時互動的擬真世界，支援持久性三維場景。

Waymo 在 2026 年 2 月採用 Genie 3，建立了專門用於自動駕駛模擬的世界模型，能生成同步的攝影機與光達輸出，並製造現實路況中罕見的邊緣情境——包括龍捲風與異常行人行為。

Alibaba 也進場了

2026 年 4 月，阿里巴巴發布 Happy Oyster 世界模型，主打即時與流暢的世界生成，支援根據文字和圖像提示建構世界的「導演模式」，以及探索生成世界的「漫遊模式」，能生成長達三分鐘的世界內影片片段。同月，World Labs 發布 Spark 2.0，一個針對智慧型手機等級裝置的開源 3D 高斯潑濺渲染引擎。

應用場景：不只是遊戲

機器人與自動駕駛

世界模型在機器人領域的核心優勢是：代理人在模擬環境中訓練，再將技能遷移至實體世界，大幅降低危險或昂貴的真實測試需求。自動駕駛車輛則利用世界模型測試罕見事件，訓練規劃器而無需上路。

遊戲與科學模擬

互動娛樂方面，Genie 3 讓使用者能從簡單描述生成可遊玩環境，遊戲工作室可更快速地進行關卡原型設計。科學模擬方面，研究者能大規模建模物理系統或生物程序；城市規劃者能在精確數位孿生中測試策略。

現在的瓶頸在哪裡？

成果亮眼，但誠實面對現狀：基準測試的結果相當清醒。

IntPhys 2 測試模型偵測物理違規的能力，以呈現出現違反物理規則的影片對來評估。人類得分接近 100%，而 V-JEPA 2 在許多條件下的表現僅略優於隨機猜測。

這個落差揭示了一個根本問題：現有的世界模型在直覺物理上仍遠遠不及人類常識。LeJEPA 的數學保證在「高斯世界」下成立，但真實世界顯然不是純粹的高斯過程。從理論保證到真實世界的穩健泛化，仍是未解的核心挑戰。

常見問題 FAQ

Q1：世界模型和 ChatGPT 有什麼不同？

最根本的差異在於「預測的對象」。ChatGPT 預測文字序列，對物理世界沒有表示；世界模型預測感測器輸入的狀態變化，能支援物理推理和行動規劃。兩者可以組合：LLM 負責語言指令，世界模型負責低階控制。

Q2：LeJEPA 的「線性可識別性」在實際中有什麼意義？

它意味著模型學到的潛在表示，與世界的真實內部結構之間存在可信的線性對應關係，而不是任意的扭曲映射。這讓基於潛在空間的規劃在理論上可以最優，而不只是工程上的近似。

Q3：高斯假設是否過於理想化？

是個合理的質疑。論文本身也提供了「近似可識別性」的結果，說明偏離高斯假設時保證會優雅地衰退，而非直接失效。但真實世界偏離高斯有多遠，仍是開放問題。

Q4：Genie 3 和 JEPA 是同一條技術路線嗎？

不完全是。Genie 3 是生成式世界模型，目標是產生可互動的視覺輸出；JEPA 系列則更偏向表示學習，目標是建構用於規劃的潛在世界模型。兩條路線都走向「理解世界」，但方法論不同。

Q5：這些發展對一般使用者有什麼影響？

短期內最直接的影響在自動駕駛和機器人——更安全的訓練流程、更能應對邊緣情況的系統。中期影響包括遊戲體驗和個人化 AI 代理。長期而言，世界模型可能是實現真正通用人工智慧的必要基礎設施。

結論

世界模型並不是一個新想法——它在 1990 年代就已萌芽，卻花了三十年才等到足夠的算力和資本讓它認真被對待。2026 年的局面是：理論剛剛有了第一個數學保證（LeJEPA），工程端已有多個量級的資金投入（AMI、World Labs、Genie 3），但在最基本的直覺物理測試上，最好的模型表現仍只比猜測略好。

這個落差本身就是值得認真思考的訊號：AI 的下一個真正突破，或許不在語言，而在於讓機器學會「世界是怎麼運作的」。

參考資料來源

分享至

X Facebook LinkedIn Bluesky

世界模型：AI 從「看懂」到「理解世界」的關鍵一躍

▌定義

▌潛在空間

▌可識別性

▌落差

✦ 關鍵亮點

什麼是世界模型？

一個關於理解的老問題

歷史比你想的長

JEPA 架構：LeCun 的賭注

不預測像素，預測「意義」

V-JEPA 2 的里程碑

LeJEPA：從「會用」到「能證明」

一個數學保證

高斯假設是關鍵

競爭格局：百億美元的世界模型軍備競賽

資本的判斷

Genie 3 與 Waymo 的合作

Alibaba 也進場了

應用場景：不只是遊戲

機器人與自動駕駛

遊戲與科學模擬

現在的瓶頸在哪裡？

常見問題 FAQ

結論

推薦閱讀

參考資料來源

分享至

您可能也會有興趣

時間為什麼不能倒流？物理學家找到了讓量子世界「假裝」倒帶的方法！

無糖氣泡水為什麼喝起來甜？大腦竟然把香氣直接當成味道

當 AI 為了「作弊」駭進真實世界：一場模型評估如何演變成史上首例 AI 自主網路攻擊

阿茲海默症的「第一顆種子」，這次真的被科學家抓包了！