World Model Comparison 世界模型技術路綫

Source

SORA： https://www.youtube.com/watch?v=dDUyK0_KC7w&ab_channel=ZOMI%E9%85%B1

JEPA： https://www.youtube.com/watch?v=kGu6AnNPuJE&ab_channel=ZOMI%E9%85%B1

SORA: (b) + Auto-regression. x, y 都是 pixel/voxel domain.

Genie: (b) + Auto-regression. 除了 video pixel/voxel, 多了一套 action hidden space.

JEPA: 從 (a) 演進到 (c) I-JEPA. (a) 完全沒有生成或預測能力。 (c) 加上了預測能力。

Sora 是直接原始的 decoder + AR。只有 video latent space, 强調生成下一幀 video. PQ 效果好。
Genie 分開 video and action. Video and action 有各自的 latent space (use LLM). 强調互動。
JEPA 的核心指導思想就是沒有生成 (only encoder, no decoder)，只有預測。所以在世界模型的定位就顯得的不清不楚
JEPA 和 Genie 有部分相似：
- Video 一樣用 transformer encode 到 latent space.
- 把 action 部分分開
但 Yan LeCunn 不喜歡 AR, 也不談生成。 JEPA 沒有討論 video 如何從 latent space 生成，因爲需要 AR decoder. 也不用 LAM for action :) 主要應用應該是視頻分析或世界理解。

差異部分：
- Action 部分用 RL agent with state 而不是像 Genie 用 LAM.
- 强調預測下個 latent state，而不是預測幀 in pixel/voxel domain.

結論

	Sora (OpenAI)	Genie (Google)	JEPA (Meta)
應用	文生視頻	(圖 + action) 生視頻，Game	視頻分析、世界理解
技術	decoder + AR for video	decoders + ARs for video and action	RL state prediction using encoder
Video Latent	Space/Time-transformer	Space/Time-transformer	Space/time transformer?
Action Latent	No	LAM, another ST-transformer	RL-agent, state
預測	下一個 pixel/voxel/frame	下一個 pixel/voxel/frame	下一個 latent state, how?
Pro	質量高，大力出奇跡	互動	可以嵌入物理定律？
Con	AR 無法學會物理定律 or video hallucination 無互動	Video hallunication 目前質量低，應可以大力出奇跡	沒說如何從 state 生成視頻沒有生成式應用

世界模型或模擬大戰。

文生視頻，宣傳成 World simulator, how? 强調視頻生成。

Sora 訓練如下。推理只需要下面一路。

Pros:

Cons:

圖像生視頻。强調視頻互動。可以用於 game generation! 還有 ADAS!

在 training, 可以 extract 出 action (就是 driver behavior)，和 CAN bus ground true information 可以比對。

在 inference, 基於 video, 就可以自動駕駛！！

Pros:

Cons

另外參考李宏毅的 youtube

https://www.youtube.com/watch?v=kGu6AnNPuJE&ab_channel=ZOMI%E9%85%B1

Yan LeCunn 不喜歡 AR, 也不談生成。JEPA 的核心指導思想就是沒有 auto-regression, 也不談生成。所以在世界模型的定位就顯得的不清不楚

JEPA 是從人腦得到靈感。預測下一個 latent space state!

JEPA 雖然使用 self-supervised learning, 但不是生成式。如下圖。生成式 self-supervised learning 是比 x and y. JEPA 是比較 latent 部分。
JEPA 的 action 使用 RL-agent, 不是另一個 LLM (LAM).

强調預測，但不是視頻預測，而是 latent space 預測

Pros:

Cons