世界模型:生成式模拟与视频世界模型
生成式模拟(generative simulation)关注的不是“生成一段好看的视频”,而是在给定历史观测、动作、场景约束和不确定性的条件下,生成对未来有用的可验证预测。视频世界模型只是其中最直观的一类:它把未来观测显式展开成图像或视频,让规划、风险评估和数据回流更容易被人和系统检查。
如果按训练来源划分,本页主要对应“视频生成型世界模型路线”:先从大规模视频生成或视频预测中学习视觉动态,再加入动作、相机、交互和长时记忆。另一条主线是 RSSM、Dreamer 与规划 中的交互轨迹 latent dynamics 路线,它从观测、动作、奖励和终止信号学习状态转移,更直接服务 policy 和 model-based RL。
这页建议和 世界模型路线图、WM / WAM / VAM:动作条件建模、模拟器、反事实与合成 Rollout 一起读。总览页回答世界模型是什么,本页重点回答“为什么视频生成可以成为世界模型的一种系统接口,以及它何时不足够”。
视频世界模型不是普通视频生成。普通视频生成关心“看起来像未来”,视频世界模型还要关心“这个未来是否由动作造成、是否能帮助规划和风险判断”。
行车记录仪能播放过去发生了什么,但驾驶模拟器必须能回答“我现在刹车、并线、加速,会发生什么”。视频世界模型要往后者靠。
一、定义:从视频预测到可规划模拟
普通视频预测可以只关心未来帧是否逼真;视频世界模型还必须关心未来是否符合动作、动力学和任务约束。一个简化目标可以写成:
其中 是观测, 是候选动作, 是潜变量或不确定性来源, 是地图、语言目标、场景结构、任务约束等上下文。关键在于动作条件:如果模型不知道“做了什么”,它最多是在补全视频,而不是在模拟可控世界。
观测也不一定只有 RGB 视频。真实系统往往同时建模 RGB、深度、光流、分割、占用栅格,机器人 proprioception、末端位姿和力反馈,自动驾驶中的地图、车道和动态 agent,以及语言目标、任务约束、工具状态、风险标签、碰撞概率、可达性或价值估计。
因此,视频世界模型的定位应是“生成式未来接口”,而不是单纯视频模型。视频是人类最容易检查的输出,但控制系统真正需要的可能是 latent rollout、风险分布、可达性、候选动作排序和反事实证据。
二、三条主线:AR Token、Diffusion 与 Latent Rollout
视频世界模型常见有三条主线。它们不是互斥路线,很多系统会组合使用。
| 路线 | 核心做法 | 优势 | 代价 |
|---|---|---|---|
| 自回归视频 token | 用 tokenizer 把视频压成离散 token,再像语言模型一样 rollout | 易接入 Transformer、便于长程序列建模 | tokenization 质量决定上限,误差会逐步累积 |
| 扩散/Flow 视频生成 | 在像素或 latent 空间做条件去噪生成 | 视觉质量好,多模态未来表达强 | 采样成本高,在线规划主链路较难承受 |
| 潜空间动力学 + 解码 | 在 latent 中预测未来,只在需要时解码视频 | 更适合规划和控制,计算更轻 | latent 可解释性和校准难度更高 |
视频 tokenizer 与 latent 表示
Tokenizer 是视频路线的地基。它不只要压缩得好看,还要保留对动作后果、接触关系、物体恒常性、遮挡恢复和风险事件有用的信息。一个只追求重建清晰度的 tokenizer,可能会保住纹理,却丢掉“杯子被推到桌边”这类对规划关键的状态。
离散 token 路线便于复用语言模型式的自回归训练和推理;连续 latent 路线更适合与控制、价值函数和不确定性估计结合。工程上常见折中是:在线主链路只做 latent rollout,低频分析、人审和数据回流阶段再解码成视频。
选择路线时看什么
选择路线不应只看生成效果,而要看系统使用位置:离线数据增强和人审更适合高质量扩散/Flow 生成,在线规划前瞻更看重 latent rollout 的成本和可组合性;如果要把视频、语言和动作统一成序列,AR token 路线更自然;如果风险事件稀有且需要多未来分支,模型必须显式表达不确定性,而不是给一个平均未来。
案例:从视频生成器继续训练成世界模型
LingBot-World / Advancing Open-source World Models 很适合用来理解当前视频世界模型的训练路线。它的关键不是“重新从零训练一个世界模型”,而是从视频生成基础模型出发,把被动视频续写逐步改造成可交互的世界模拟器。更详细的单篇拆解见 LingBot-World 论文专题讲解。

图源:Advancing Open-source World Models,Figure 4。原论文图意:LingBot-World 从 foundation video generator 出发,经过 pre-training、middle-training 和 post-training,逐步获得通用视频先验、交互逻辑/长时动态和低延迟因果交互能力。
视频世界模型先继承视频生成底座,是因为视觉纹理、物体持久性和一般运动规律非常昂贵;middle-training 再注入动作控制、世界知识和长程一致性;post-training 最后解决因果注意力、延迟蒸馏和实时交互。也就是说,它的训练重点从“像视频”逐步移动到“能被动作控制、能低延迟 rollout”。
LingBot-World 官方 README 里的 demo 更适合用来建立“从视频生成到交互模拟”的直觉。
这段 demo 不只是展示画质,而是展示三类世界模型信号:开放场景里画面是否能持续演化,长时间移动时场景结构是否保持,控制信号是否能让未来发生可见变化。读这类 demo 时要主动问:如果固定同一初始画面,换一个相机轨迹或动作序列,未来是否会合理分叉?如果不能验证这一点,它仍可能更接近视频续写器,而不是可规划模拟器。
可以把这类路线拆成三步:
| 阶段 | 训练重点 | 从视频模型到世界模型的变化 |
|---|---|---|
| 视频基础模型 | 学视觉质量、开放域语义、短中程时序连续性 | 先获得“世界看起来怎样、一般会怎样运动”的先验 |
| 中程训练 | 混合真实视频、游戏录屏、合成轨迹和动作/相机控制信号 | 让模型开始学习“动作会怎样改变未来画面” |
| 因果化与蒸馏 | 改成可流式 rollout 的因果结构,并减少采样步数 | 从离线生成长视频,转向低延迟交互模拟 |
这里最重要的变化是训练目标的重心移动。普通视频模型主要学习:
也就是在历史视频和文本条件下补一个合理未来。世界模型则必须学习:
其中动作 可以是键盘输入、相机轨迹、机器人动作或更高层的交互事件。若动作条件只是弱标签,模型很容易仍然靠视频惯性生成“平均合理未来”;只有当数据和目标迫使不同动作产生不同后果时,它才开始接近世界模型。
这也解释了为什么世界模型训练越来越复用视频生成基础设施,但不能等同于视频模型训练。视频预训练提供渲染、纹理、物体持久性和时序先验;动作标注交互数据提供可控性;长序列 curriculum 提供长期一致性;因果注意力、KV cache 和少步蒸馏则把模型推向实时交互。对工程系统来说,最后验收的不是视频是否好看,而是固定同一历史状态、改变动作后,模型能否生成可区分、可验证、对规划有用的未来。
Google DeepMind 的 Genie 3 页面也提供了大量官方 demo,其中“environmental consistency”片段适合观察长时一致性。
一段普通视频可以在短时间里看起来很自然;世界模型更难,因为用户或 agent 会把模型推到越来越长的自回归历史上。长时 demo 要看地标、房间结构、物体身份和运动方向是否持续可信。如果模型每隔几秒就“重造世界”,planner 看到的未来就不稳定,合成数据也容易污染策略训练。
三、动作条件:VAM、WAM 与反事实的分水岭
视频世界模型和普通视频生成的核心分界线在动作条件。没有动作条件,模型只能预测“世界可能自然发生什么”;有动作条件,模型才能回答“如果我这样做,会发生什么”。
动作怎么注入
动作条件可以是关节角、速度、力矩、轨迹点这类连续控制量,也可以是抓取、放置、左转、变道这类离散技能;更高层的系统还会用语言指令、子目标、多条 trajectory、waypoint、action chunk、工具调用、对象接触或按钮点击来表示动作。
连续动作更接近控制,但建模难;离散技能更稳定,但会丢掉细粒度动力学。机器人、自动驾驶和屏幕代理对动作表示的要求也不同,这部分可接到 动作表示与控制接口。
VAM 和 WAM 的位置
VAM(Video-Action Model)强调视频与动作之间的联合建模。它要验证的不只是“能生成视频”,而是动作是否能改变预测未来、预测未来是否能反推可行动作。
WAM(World-Action Model)更进一步:它不一定输出完整视频,而是学习可用于规划和控制的世界状态、动作后果、风险和价值。视频可以是它的一个观测头,也可以只是人类检查和数据回流的接口。
可以粗略区分:
| 类型 | 主要输出 | 判断标准 |
|---|---|---|
| 视频生成模型 | 逼真未来视频 | 视觉质量、时序一致性 |
| 视频世界模型 | 动作条件未来观测 | 动作一致性、动力学合理性、反事实可用性 |
| VAM | 视频与动作联合关系 | 能否学习动作先验、反推动作、辅助策略 |
| WAM | 可规划的世界状态和动作后果 | 闭环任务收益、风险校准、长期 rollout 可用性 |
四、系统用法:规划、回放、数据引擎
视频世界模型在系统中通常有三种位置:在线规划、离线反事实、数据引擎。

图源:Advancing Open-source World Models,Figure 5。原论文图意:左侧展示图像/视频、噪声 latent 和用户动作如何共同生成具备空间记忆、长时一致性和动作跟随的视频;右侧展示 DiT block 中 self-attention、Plucker action embedding、adaptive normalization 与 text cross-attention 的组织方式。
如果动作只写在 prompt 里,模型很容易仍靠视频惯性生成平均未来。LingBot-World 这类系统把用户动作编码进生成模块,让 action 影响 video latent 的去噪路径;同时用因果注意力和 KV cache 支撑流式生成。这样才更接近“同一历史状态下,换动作会换未来”的世界模型接口。
在线规划
在线规划中,模型用于评估候选动作的未来后果。例如机器人要把杯子从桌边移到托盘上,可以对多条候选轨迹做短 horizon rollout,筛掉会碰撞、会滑落或会遮挡关键物体的动作。
在线使用时最重要的是频率和接口。高频控制环不适合昂贵视频采样,中频规划环可以使用 latent rollout 或低分辨率预测,低频分析环再解码视频,给人审、debug 和数据回流使用。
也就是说,视频解码不一定发生在控制主路径。控制主路径更需要的是“哪个动作更安全、更可达、更可能完成任务”。
反事实与失败回放
生成式模拟真正有价值的场景常常不是平均 rollout,而是反事实:如果当时慢一点、换一条路径、先移动另一个物体、不要执行某个工具调用,会不会避免失败。
这对自动驾驶和机器人尤其重要。真实危险事件稀有、采集成本高、复现困难。能生成可控反事实,往往比在普通视频指标上提升一点更有工程价值。
数据引擎
视频世界模型可以参与数据回流:从真实失败中生成相邻反事实,扩增长尾场景,给策略学习提供 imagined data,帮助发现策略在未见动作分布上的风险,并作为人工标注和复盘的可视化界面。
但合成数据不能直接信任。它需要被真实数据校准,被 closed-loop evaluation 过滤,并且要避免把模型自己的偏差再喂回训练集。
五、评测:逼真、动力学、动作一致性和闭环收益
评测视频世界模型不能只看 FID、FVD 或人眼观感。更完整的评测应分四层:
| 层级 | 关注点 | 典型问题 |
|---|---|---|
| 视觉层 | 视频是否清晰、连续、物体不乱跳 | 看起来是否合理 |
| 动力学层 | 接触、遮挡、碰撞、速度是否符合世界规律 | 物体是否按动作后果变化 |
| 任务层 | 预测是否能帮助选择动作 | 用它规划是否提升成功率 |
| 风险层 | 稀有失败和不确定性是否被表达 | 危险未来是否被低估 |
如果方法声称自己是 VAM 或 WAM,还应额外看动作条件是否真的生效:固定历史、改变动作时,未来应随动作合理变化;固定动作、改变场景结构时,风险应随场景变化;长 horizon rollout 要保持关键对象和目标状态;与真实环境闭环交互后,任务成功率、碰撞率、恢复率应有改善;不确定性也要校准,而不是只生成一个过度平滑的平均未来。
六、风险与失效模式
视频世界模型最常见的误区是把“视觉逼真”误当成“世界正确”。风险通常来自六个方向:视觉上对、动力学上错,纹理、背景和运动合理但接触、质量、摩擦、遮挡和碰撞不对;短期预测可信但长期 rollout 漂移,最后进入模型自己的幻觉世界;数据里常见的安全路径被过拟合,稀有危险事件被低估;动作影响被历史视频惯性弱化;生成质量高但采样慢、显存高,无法进入规划链路;模型生成的偏差又被再次训练,导致策略越来越适应模拟器而不是现实。
这些风险决定了一个实践原则:生成式模拟必须绑定真实环境验证、反事实样本审计和风险校准,而不能只作为视频生成 demo。
七、落地清单
设计生成式模拟系统时,先明确输出服务谁:人审、数据增强、策略训练、在线规划还是风险评估;再明确动作表示是连续控制、离散技能、语言目标还是轨迹候选,并选择像素、离散 token、连续 latent 或混合结构作为表示空间。上线前还要把频率和预算分清,高频控制、中频规划、低频分析不能混用同一成本模型;评测要同时看视觉、动力学、动作一致性、闭环任务和风险校准;反事实接口必须能固定历史并系统性改变动作、场景和目标;合成样本要标记来源、置信度和适用范围;最终仍要回到真实环境闭环验证,看任务成功率、恢复率、碰撞率和成本。
最直接的判断是:如果一个视频世界模型不能让系统更好地选择动作、发现风险或构造有价值的反事实,那它还只是视频生成模型;只有当它能改变规划、训练和回流决策时,才真正进入世界模型的工程范畴。
- Title: 世界模型:生成式模拟与视频世界模型
- Author: Charles
- Created at : 2026-05-02 09:00:00
- Updated at : 2026-05-02 09:00:00
- Link: https://charles2530.github.io/2026/05/02/ai-files-world-models-generative-simulation-and-video/
- License: This work is licensed under CC BY-NC-SA 4.0.