世界模型:从零理解世界模型:预测行动后的可用未来
世界模型不是“能生成未来视频”的模型。它真正回答的问题是:如果智能体在当前局面下执行某个动作,未来会怎样,风险在哪里,下一步还值不值得做。
这句话里有三个关键词。第一是当前局面,它通常不是单帧图像,而是历史观测、动作和记忆压成的状态。第二是动作,因为世界模型必须支持反事实:同一个起点,向左走、向右走、打开抽屉、停下来,未来应该不同。第三是可用未来,因为预测结果最终要被 planner、policy、risk checker 或 evaluator 消费。
所以入门时先不要问“它能不能生成视频”。更好的问题是:它是否把 belief state、action、rollout 和决策接口接成了一条闭环。
最小接口
一个决策智能体每一步都在问:
1 | 我现在看到这些东西,也记得刚才做过什么。 |
把它写成最小接口,就是:
1 | 历史观测 + 历史动作 + 候选动作 |
这个接口能把几类模型分开。
| 模型看起来会做什么 | 为什么还不一定是决策世界模型 |
|---|---|
| 生成一段合理未来视频 | 如果动作换了未来不变,它更像视频生成器。 |
| 重建当前图像或补全遮挡 | 如果没有 transition 和 rollout,不能评估候选动作。 |
| 学到强视频表征 | 如果没有 action-conditioned dynamics,只能作为状态编码候选。 |
| 预测 reward 或风险 | 如果状态不稳或动作不敏感,planner 会利用模型漏洞。 |
世界模型的要点不在“未来看起来像不像”,而在“未来能不能帮助做决定”。
观测、状态和 belief state
观测 observation 是传感器当下看到的东西:RGB、深度、文本、触觉、关节角、速度、电流。真实状态 state 是足以预测未来的局面:物体位置、速度、遮挡、接触、任务阶段和不可见约束。latent state 是模型学到的压缩表示,用来近似真实状态。
现实里智能体很少直接拿到完整状态。单帧图像看不到速度,看不到杯子背后的遮挡物,也不知道夹爪上一秒是否碰到了物体。因此世界模型通常维护 belief state:给定历史观测和历史动作后,智能体对当前世界状态的内部估计。
是 belief state, 是真实但通常不可直接观测的状态, 是到当前为止的观测序列, 是已经执行过的动作。白话说:模型不是只看一张图,而是用“我一路看见了什么、做了什么”来猜当前世界到底处在什么状态。
这就是为什么 PlaNet、Dreamer 和很多机器人世界模型都要用 recurrent state、memory token 或 latent dynamics。它们不是为了把架构写复杂,而是因为部分可观测世界里,记忆本身就是状态的一部分。
动作条件是分水岭
普通视频预测可以写成:
它问的是“接下来通常会发生什么”。动作条件世界模型要写成:
它问的是“如果我做这个动作,接下来会发生什么”。这就是世界模型和普通视频续写最容易混淆、也最重要的差别。
在机器人里,这个差别非常具体。同一个桌面场景下,夹爪左移和右移应该导致不同接触;推杯子和绕过杯子应该导致不同轨迹;停下来和继续前进应该导致不同风险。如果模型没有学到动作对未来的因果影响,它不能做反事实规划,只能做条件不足的未来猜测。

图源:Towards Video World Models,Figure 5。本站复用已有图,未使用 image2 生成新图。原图表达 observation、latent state、action、rollout 和 policy/planner 的关系;本站用它说明世界模型的关键接口是 state + action -> future,而不是单纯生成一段视频。
读这张图时先找三件事:state 从哪里来,action 在哪里进入,rollout 的输出被谁消费。如果没有消费方,模型最多是演示器;如果 action 不影响未来,模型就无法做反事实规划。
Rollout:在模型里向未来展开
Rollout 是从当前状态出发,连续预测多步未来:
1 | z_t --a_t--> z_{t+1} --a_{t+1}--> z_{t+2} --...--> z_{t+H} |
rollout 的好处是便宜。智能体可以先在模型里试很多候选动作序列,再把看起来最好的动作拿到真实世界执行。PlaNet 用 latent planning 评估候选动作序列;Dreamer 则在 latent imagined rollout 里训练 actor 和 critic。
但 rollout 也有危险:模型误差会逐步累积。一步预测很准,不代表十步后还准;视频看起来顺滑,不代表 reward 或接触状态正确;模型越被策略利用,越可能暴露训练数据里没覆盖的角落。
这就是世界模型评测不能只看 open-loop prediction loss 的原因。真正要问的是:多想几步之后,模型是否仍保留任务关键状态;planner 是否因为模型偏差选错动作;策略是否能回到真实环境里闭环成功。
三条主线
世界模型今天大致有三种常见形态。它们不是互相替代,而是在回答不同层级的问题。
| 路线 | 核心问题 | 典型代表 | 关键证据 |
|---|---|---|---|
| latent 控制模型 | 如何把历史压成可规划状态 | World Models、PlaNet、Dreamer | latent rollout、reward/value、控制回报 |
| 生成式交互环境 | 如何生成可交互、可观察的未来 | Genie、Genie 2、视频世界模型 | action-controllable demo、counterfactual、agent eval |
| 预测式表征 / JEPA | 如何学习不依赖像素重建的时空状态 | V-JEPA、V-JEPA 2 | latent prediction、action-conditioned planning、闭环任务 |
latent 控制模型
PlaNet 和 Dreamer 代表经典 model-based RL 路线。它们不追求生成最高清的视频,而是把观测压进 latent state,让 dynamics、reward 和 policy 在 latent space 中工作。
PlaNet 更偏在线规划:给定当前 belief,搜索候选 action sequence,选择模型预测回报最高的动作。Dreamer 更偏策略学习:在 latent imagined rollout 中训练 actor,执行时直接输出动作。二者共同说明:世界模型的价值在于把未来预测转成策略学习或动作选择信号。
生成式交互环境
Genie、Genie 2 和视频世界模拟器更强调外部可见的未来:生成环境、可交互场景、动作后果或视频 rollout。它们的优势是可视化强,容易做人类检查、数据生成和交互原型;难点是长时一致性、动作可控性、物理约束、低延迟和 closed-loop 评测。
DeepMind 在 Genie 2 中把重点放在 action-controllable、playable 3D environments:单张 prompt image 可以生成可被人或 AI agent 用键鼠交互的环境,并强调同一起点下不同动作会产生不同轨迹。这类系统更接近“可玩的世界模拟器”,但读它时仍要区分 demo、open-loop consistency、agent evaluation 和真实机器人闭环。
生成式世界模型的关键边界是:画面可信不等于动力学可信,长视频一致不等于动作因果正确,能被人玩不等于能安全训练真实机器人。它适合做模拟、数据引擎、交互原型和任务评测,但要进入决策闭环,还必须证明动作、状态、风险和奖励接口可用。
预测式表征和 JEPA
V-JEPA / V-JEPA 2 代表另一条路线:不一定生成像素,而是在 latent representation 里预测被遮挡或未来的信息。这样的好处是模型可以少花容量在纹理重建上,把重点放在时空结构、物体运动和抽象状态。
V-JEPA 2 的读法很适合初学者:第一阶段从大量视频中学习理解和预测,第二阶段用较少机器人交互视频把 latent world model 接到动作和规划。它说明“强视频表征”和“可规划世界模型”不是同一件事,中间还差 action-conditioned dynamics、goal interface 和闭环验证。
证据强弱怎么判断
世界模型论文最容易被误读,因为不同证据回答的是不同问题。
| 证据 | 它能说明什么 | 不能说明什么 |
|---|---|---|
| reconstruction / prediction loss | 模型能否复原或预测训练分布里的观测 | 不证明动作因果和控制收益。 |
| 视频 demo | 画面是否连贯、是否有明显物理错觉 | 不证明 planner 可用,也不证明长尾安全。 |
| action counterfactual | 同一起点下不同动作是否导致不同未来 | 还要看未来是否任务相关、是否可闭环。 |
| reward / done / risk prediction | latent 是否保留任务信号 | 不自动证明策略会利用好这些信号。 |
| planning ablation | 世界模型是否帮助选择动作 | 通常依赖任务、horizon、搜索预算和数据覆盖。 |
| closed-loop success | 模型是否真的改善真实或仿真任务 | 需要看泛化、失败桶、安全边界和复现条件。 |
因此读一篇世界模型论文时,不要先问“它是不是 SOTA”。先问:预测对象是什么,动作怎么进入,rollout 被谁消费,证据停在哪一层。一个视频世界模型可以很强,但仍只证明 open-loop 生成;一个 latent model 画面不好看,却可能对控制很有用。
最后判断
世界模型最该记住的不是某个模型名,而是一个接口:belief state + action -> future useful for decision。观测要被压成可记忆的状态,动作要真正改变未来,rollout 要能被 planner、policy 或 risk checker 消费,证据要从 open-loop 预测一路追到闭环任务。
这也是为什么世界模型会同时出现三种形态:Dreamer 式 latent 控制模型,Genie 式可交互生成环境,V-JEPA 式预测表征。它们不是互相替代,而是在回答不同层级的问题:如何记住世界,如何预测动作后果,如何让未来服务决策。
继续往下读,可以接 RSSM、Dreamer 与规划、Masked / JEPA 与潜变量预测、WM / WAM / VAM:动作条件建模 和 世界模型评测与失效模式。
外部精读
- World Models:经典直觉入口,用 VAE、MDN-RNN 和 controller 展示“在自己的梦里学习”的早期路线。
- PlaNet:理解 latent dynamics、planning from pixels 和 latent overshooting。
- Dreamer:理解 imagined actor-critic 和 latent imagination。
- DeepMind Genie 2:看 action-controllable playable world 的现代官方表述。
- Meta V-JEPA 2 research page:看 action-free 表征预训练如何接到 action-conditioned planning。
- Towards Video World Models:用系统图梳理视频世界模型、状态空间和交互模拟器之间的关系。
- Title: 世界模型:从零理解世界模型:预测行动后的可用未来
- Author: Charles
- Created at : 2026-04-18 09:00:00
- Updated at : 2026-04-18 09:00:00
- Link: https://charles2530.github.io/2026/04/18/ai-files-world-models-beginner-world-models-primer/
- License: This work is licensed under CC BY-NC-SA 4.0.