世界模型:生成式模拟与视频世界模型:从好看视频到可交互未来
视频世界模型很容易被误读成“更强的视频生成”。在世界模型语境里,它真正要回答的是:给定历史、动作、目标和场景约束,未来是否会以可验证、可交互、可用于决策的方式演化。
所以这页只讲一个问题:视频生成模型要补上什么,才能变成服务规划和数据回流的世界模型。
普通视频生成缺少动作因果
普通视频生成常建模:
这里 是历史视频帧或视频 latent, 是文本、首帧、风格或场景条件,模型输出未来 步视频。这能学到外观、光照、构图和一般运动规律,但还不能证明它理解动作后果。
视频世界模型至少要把动作放进条件里:
这里 是未来动作, 可以是风险、不确定性、可达性、碰撞或成功概率。公式里的关键变化是:固定同一历史时,换动作应该得到不同未来。如果动作只写在 prompt 里但不改变模型内部生成路径,模型很可能仍然靠视频惯性生成平均未来。
为什么要继承视频生成底座
从零训练一个世界模型很贵。大规模视频生成底座已经学到物体外观、短中程运动、场景布局、相机变化和视觉连续性。很多视频世界模型因此选择先继承视频底座,再继续训练动作条件、长时一致性、因果 rollout 和低延迟生成。

图源:Advancing Open-source World Models,Figure 4。原图展示 LingBot-World 从 foundation video generator 出发,经过 pre-training、middle-training 和 post-training,逐步加入通用视频先验、交互数据、长时动态和因果低延迟能力。本站读法:继承视频底座只是起点,动作数据、因果结构和评测门禁才是世界模型分水岭。
这类路线可以理解成三阶段。第一阶段学“世界看起来怎样”,主要依靠大规模视频和图文数据。第二阶段学“动作如何改变未来”,引入游戏、机器人、相机控制或交互轨迹。第三阶段学“怎样实时向前滚”,包括因果 attention、KV cache、少步生成和流式解码。
动作必须进入模型内部
动作可以是键盘输入、相机轨迹、机器人关节动作、末端位姿、离散技能、语言子目标或工具调用。关键不是动作名字,而是它是否影响去噪路径、latent dynamics 或预测头。

图源:Advancing Open-source World Models,Figure 5。原图展示图像/视频、噪声 latent、文本和用户动作共同进入生成系统,并在 DiT block 中通过 action embedding、adaptive normalization、self-attention 和 text cross-attention 影响未来视频。本站读法:动作条件要成为模型内部变量,而不是生成后贴上的解释标签。
最小反事实测试很简单:
1 | 固定同一历史画面 |
如果三组未来几乎一样,模型可能只是普通视频续写器。如果未来分叉合理,但 planner 不能用它选动作,它还只是动作条件预测器。只有接入 planner 或 policy 后成功率、恢复率、风险控制或数据回流变好,才进入世界模型证据层。
交互 rollout 需要因果化
普通视频生成可以整段视频一起生成;交互式世界模型必须一步步向前,持续接收用户或 agent 的动作,并保持环境记忆。这会带来 train-test gap:训练时模型可能看完整片段,推理时只能看过去和当前 chunk。

图源:Advancing Open-source World Models,Figure 6。原图展示 causal generator adaptation 和 discriminator architecture。本站读法:block causal attention、KV cache、长时 discriminator 和少步生成共同解决“只能看过去还要持续交互”的问题。
在线系统还要分清频率。高频控制通常需要传统控制器或轻量 policy,不能等待昂贵视频采样;中频规划可以用 latent rollout、低分辨率未来或候选风险排序;低频分析和人审才适合高清视频反事实回放。
这就是为什么视频解码不一定在控制主路径上。主路径更需要的是哪个动作更安全、更可达、更可能完成任务。
生成式模拟的三种用法
第一种是在线规划。机器人可以对多条候选轨迹做短 horizon rollout,筛掉会碰撞、滑落或遮挡关键物体的动作;自动驾驶可以比较刹车、让行、变道的未来风险。
第二种是反事实与失败回放。真实危险事件稀有、采集成本高、复现困难。视频世界模型可以回答:如果当时慢一点、换一条路径、先移动另一个物体,会不会避免失败。
第三种是数据引擎。模型可以生成相邻反事实、扩增长尾场景、辅助人工标注和错误归因。但合成数据不能直接信任,必须经过真实数据校准、failure replay 和 closed-loop evaluation。
评测不要只看视频质量
视频世界模型至少要过六层评测。视觉层看清晰度、连续性和对象身份;动力学层看接触、遮挡、碰撞、速度和空间结构;动作层看固定历史换动作是否分叉;任务层看接入 planner 或 policy 后成功率是否提升;风险层看 near-miss、碰撞和不确定性是否被低估;系统层看 latency、显存、吞吐和 cost per success。
如果方法声称是 VAM/WAM/视频世界模型,还应报告 action sensitivity、candidate ranking agreement、temporal consistency、risk calibration 和 cost per success。只报告 FVD、视频 demo 或少数交互样例,不足以证明它能服务规划。
常见失效模式
| 失败 | 表现 | 为什么危险 |
|---|---|---|
| 视觉上对,动力学上错 | 画面自然但接触、摩擦、碰撞不对 | planner 会选错动作 |
| 动作被历史惯性淹没 | 换动作后未来差异很小 | 反事实和规划失效 |
| 长时重造世界 | 地标、房间结构、物体身份漂移 | 数据回流会污染策略 |
| 平均化未来 | 稀有危险分支被抹掉 | 风险被低估 |
| 采样太慢 | 每个候选动作都要多步扩散 | 无法在线规划 |
| 自生成偏差回灌 | 合成数据越来越像模型自己 | 策略适应模拟器而非现实 |
最直接的判断是:如果一个视频世界模型不能让系统更好地选择动作、发现风险或构造有价值的反事实,那它仍然只是视频生成模型;只有当它改变规划、训练和数据回流决策时,才真正进入世界模型工程范畴。
外部精读
- LingBot-World / Advancing Open-source World Models:适合看视频底座如何继续训练成交互式世界模型。
- CausVid: From Slow Bidirectional to Fast Autoregressive Video Diffusion Models:理解为什么因果化和少步生成对交互 rollout 很关键。
- Genie 3:适合看实时、可交互世界模型的前沿展示。
- NVIDIA Cosmos:适合看 physical AI 数据生成和世界基础模型平台。
- Towards Video World Models:适合作为视频世界模型路线综述的外部参考。
相关阅读与下一步
- 外部材料:World Models 论文。
- 外部材料:DeepMind Genie 2。
- 外部材料:Meta V-JEPA 2。
- 站内下一步:世界模型专题。
- 站内下一步:RSSM、Dreamer 与规划。
- 站内下一步:世界模型评测与失效模式。
- Title: 世界模型:生成式模拟与视频世界模型:从好看视频到可交互未来
- Author: Charles
- Created at : 2026-03-11 09:00:00
- Updated at : 2026-03-11 09:00:00
- Link: https://charles2530.github.io/2026/03/11/ai-files-world-models-generative-simulation-and-video/
- License: This work is licensed under CC BY-NC-SA 4.0.