世界模型：生成式模拟与视频世界模型

生成式模拟（generative simulation）关注的不是“生成一段好看的视频”，而是在给定历史观测、动作、场景约束和不确定性的条件下，生成对未来有用的可验证预测。视频世界模型只是其中最直观的一类：它把未来观测显式展开成图像或视频，让规划、风险评估和数据回流更容易被人和系统检查。

如果按训练来源划分，本页主要对应“视频生成型世界模型路线”：先从大规模视频生成或视频预测中学习视觉动态，再加入动作、相机、交互和长时记忆。另一条主线是 RSSM、Dreamer 与规划中的交互轨迹 latent dynamics 路线，它从观测、动作、奖励和终止信号学习状态转移，更直接服务 policy 和 model-based RL。

这页建议和世界模型路线图、WM / WAM / VAM：动作条件建模、模拟器、反事实与合成 Rollout 一起读。总览页回答世界模型是什么，本页重点回答“为什么视频生成可以成为世界模型的一种系统接口，以及它何时不足够”。

初学者先抓住

视频世界模型不是普通视频生成。普通视频生成关心“看起来像未来”，视频世界模型还要关心“这个未来是否由动作造成、是否能帮助规划和风险判断”。

有趣例子：行车记录仪和驾驶模拟器

行车记录仪能播放过去发生了什么，但驾驶模拟器必须能回答“我现在刹车、并线、加速，会发生什么”。视频世界模型要往后者靠。

一、定义：从视频预测到可规划模拟

普通视频预测可以只关心未来帧是否逼真；视频世界模型还必须关心未来是否符合动作、动力学和任务约束。一个简化目标可以写成：

$p(o_{t+1:t+H} \mid o_{\le t}, a_{t:t+H-1}, z, c),$

其中 $o$ 是观测， $a$ 是候选动作， $z$ 是潜变量或不确定性来源， $c$ 是地图、语言目标、场景结构、任务约束等上下文。关键在于动作条件：如果模型不知道“做了什么”，它最多是在补全视频，而不是在模拟可控世界。

观测也不一定只有 RGB 视频。真实系统往往同时建模 RGB、深度、光流、分割、占用栅格，机器人 proprioception、末端位姿和力反馈，自动驾驶中的地图、车道和动态 agent，以及语言目标、任务约束、工具状态、风险标签、碰撞概率、可达性或价值估计。

因此，视频世界模型的定位应是“生成式未来接口”，而不是单纯视频模型。视频是人类最容易检查的输出，但控制系统真正需要的可能是 latent rollout、风险分布、可达性、候选动作排序和反事实证据。

二、三条主线：AR Token、Diffusion 与 Latent Rollout

视频世界模型常见有三条主线。它们不是互斥路线，很多系统会组合使用。

路线	核心做法	优势	代价
自回归视频 token	用 tokenizer 把视频压成离散 token，再像语言模型一样 rollout	易接入 Transformer、便于长程序列建模	tokenization 质量决定上限，误差会逐步累积
扩散/Flow 视频生成	在像素或 latent 空间做条件去噪生成	视觉质量好，多模态未来表达强	采样成本高，在线规划主链路较难承受
潜空间动力学 + 解码	在 latent 中预测未来，只在需要时解码视频	更适合规划和控制，计算更轻	latent 可解释性和校准难度更高

视频 tokenizer 与 latent 表示

Tokenizer 是视频路线的地基。它不只要压缩得好看，还要保留对动作后果、接触关系、物体恒常性、遮挡恢复和风险事件有用的信息。一个只追求重建清晰度的 tokenizer，可能会保住纹理，却丢掉“杯子被推到桌边”这类对规划关键的状态。

离散 token 路线便于复用语言模型式的自回归训练和推理；连续 latent 路线更适合与控制、价值函数和不确定性估计结合。工程上常见折中是：在线主链路只做 latent rollout，低频分析、人审和数据回流阶段再解码成视频。

选择路线时看什么

选择路线不应只看生成效果，而要看系统使用位置：离线数据增强和人审更适合高质量扩散/Flow 生成，在线规划前瞻更看重 latent rollout 的成本和可组合性；如果要把视频、语言和动作统一成序列，AR token 路线更自然；如果风险事件稀有且需要多未来分支，模型必须显式表达不确定性，而不是给一个平均未来。

案例：从视频生成器继续训练成世界模型

LingBot-World / Advancing Open-source World Models 很适合用来理解当前视频世界模型的训练路线。它的关键不是“重新从零训练一个世界模型”，而是从视频生成基础模型出发，把被动视频续写逐步改造成可交互的世界模拟器。更详细的单篇拆解见 LingBot-World 论文专题讲解。

图源：Advancing Open-source World Models，Figure 4。原论文图意：LingBot-World 从 foundation video generator 出发，经过 pre-training、middle-training 和 post-training，逐步获得通用视频先验、交互逻辑/长时动态和低延迟因果交互能力。

难点解释：为什么不是从零训练

视频世界模型先继承视频生成底座，是因为视觉纹理、物体持久性和一般运动规律非常昂贵；middle-training 再注入动作控制、世界知识和长程一致性；post-training 最后解决因果注意力、延迟蒸馏和实时交互。也就是说，它的训练重点从“像视频”逐步移动到“能被动作控制、能低延迟 rollout”。

LingBot-World 官方 README 里的 demo 更适合用来建立“从视频生成到交互模拟”的直觉。

视频源：LingBot-World 官方 GitHub README，Video Demo。README 将 LingBot-World 描述为由视频生成模型发展而来的开源世界模拟器，强调长时一致性和实时交互。

视频解读：LingBot-World demo 应该看什么

这段 demo 不只是展示画质，而是展示三类世界模型信号：开放场景里画面是否能持续演化，长时间移动时场景结构是否保持，控制信号是否能让未来发生可见变化。读这类 demo 时要主动问：如果固定同一初始画面，换一个相机轨迹或动作序列，未来是否会合理分叉？如果不能验证这一点，它仍可能更接近视频续写器，而不是可规划模拟器。

可以把这类路线拆成三步：

阶段	训练重点	从视频模型到世界模型的变化
视频基础模型	学视觉质量、开放域语义、短中程时序连续性	先获得“世界看起来怎样、一般会怎样运动”的先验
中程训练	混合真实视频、游戏录屏、合成轨迹和动作/相机控制信号	让模型开始学习“动作会怎样改变未来画面”
因果化与蒸馏	改成可流式 rollout 的因果结构，并减少采样步数	从离线生成长视频，转向低延迟交互模拟

这里最重要的变化是训练目标的重心移动。普通视频模型主要学习：

$p(v_{t+1:t+H} \mid v_{\le t}, c),$

也就是在历史视频和文本条件下补一个合理未来。世界模型则必须学习：

$p(v_{t+1:t+H} \mid v_{\le t}, a_{t:t+H-1}, c),$

其中动作 $a$ 可以是键盘输入、相机轨迹、机器人动作或更高层的交互事件。若动作条件只是弱标签，模型很容易仍然靠视频惯性生成“平均合理未来”；只有当数据和目标迫使不同动作产生不同后果时，它才开始接近世界模型。

这也解释了为什么世界模型训练越来越复用视频生成基础设施，但不能等同于视频模型训练。视频预训练提供渲染、纹理、物体持久性和时序先验；动作标注交互数据提供可控性；长序列 curriculum 提供长期一致性；因果注意力、KV cache 和少步蒸馏则把模型推向实时交互。对工程系统来说，最后验收的不是视频是否好看，而是固定同一历史状态、改变动作后，模型能否生成可区分、可验证、对规划有用的未来。

Google DeepMind 的 Genie 3 页面也提供了大量官方 demo，其中“environmental consistency”片段适合观察长时一致性。

视频源：Google DeepMind Genie 3 官方页面，environmental consistency demo。官方页面强调生成 AI worlds 的挑战之一，是长时间主动生成时保持环境一致性。

视频解读：长时一致性为什么是世界模型门槛

一段普通视频可以在短时间里看起来很自然；世界模型更难，因为用户或 agent 会把模型推到越来越长的自回归历史上。长时 demo 要看地标、房间结构、物体身份和运动方向是否持续可信。如果模型每隔几秒就“重造世界”，planner 看到的未来就不稳定，合成数据也容易污染策略训练。

三、动作条件：VAM、WAM 与反事实的分水岭

视频世界模型和普通视频生成的核心分界线在动作条件。没有动作条件，模型只能预测“世界可能自然发生什么”；有动作条件，模型才能回答“如果我这样做，会发生什么”。

动作怎么注入

动作条件可以是关节角、速度、力矩、轨迹点这类连续控制量，也可以是抓取、放置、左转、变道这类离散技能；更高层的系统还会用语言指令、子目标、多条 trajectory、waypoint、action chunk、工具调用、对象接触或按钮点击来表示动作。

连续动作更接近控制，但建模难；离散技能更稳定，但会丢掉细粒度动力学。机器人、自动驾驶和屏幕代理对动作表示的要求也不同，这部分可接到动作表示与控制接口。

VAM 和 WAM 的位置

VAM（Video-Action Model）强调视频与动作之间的联合建模。它要验证的不只是“能生成视频”，而是动作是否能改变预测未来、预测未来是否能反推可行动作。

WAM（World-Action Model）更进一步：它不一定输出完整视频，而是学习可用于规划和控制的世界状态、动作后果、风险和价值。视频可以是它的一个观测头，也可以只是人类检查和数据回流的接口。

可以粗略区分：

类型	主要输出	判断标准
视频生成模型	逼真未来视频	视觉质量、时序一致性
视频世界模型	动作条件未来观测	动作一致性、动力学合理性、反事实可用性
VAM	视频与动作联合关系	能否学习动作先验、反推动作、辅助策略
WAM	可规划的世界状态和动作后果	闭环任务收益、风险校准、长期 rollout 可用性

四、系统用法：规划、回放、数据引擎

视频世界模型在系统中通常有三种位置：在线规划、离线反事实、数据引擎。

图源：Advancing Open-source World Models，Figure 5。原论文图意：左侧展示图像/视频、噪声 latent 和用户动作如何共同生成具备空间记忆、长时一致性和动作跟随的视频；右侧展示 DiT block 中 self-attention、Plucker action embedding、adaptive normalization 与 text cross-attention 的组织方式。

难点解释：动作条件要进到模型内部

如果动作只写在 prompt 里，模型很容易仍靠视频惯性生成平均未来。LingBot-World 这类系统把用户动作编码进生成模块，让 action 影响 video latent 的去噪路径；同时用因果注意力和 KV cache 支撑流式生成。这样才更接近“同一历史状态下，换动作会换未来”的世界模型接口。

在线规划

在线规划中，模型用于评估候选动作的未来后果。例如机器人要把杯子从桌边移到托盘上，可以对多条候选轨迹做短 horizon rollout，筛掉会碰撞、会滑落或会遮挡关键物体的动作。

在线使用时最重要的是频率和接口。高频控制环不适合昂贵视频采样，中频规划环可以使用 latent rollout 或低分辨率预测，低频分析环再解码视频，给人审、debug 和数据回流使用。

也就是说，视频解码不一定发生在控制主路径。控制主路径更需要的是“哪个动作更安全、更可达、更可能完成任务”。

反事实与失败回放

生成式模拟真正有价值的场景常常不是平均 rollout，而是反事实：如果当时慢一点、换一条路径、先移动另一个物体、不要执行某个工具调用，会不会避免失败。

这对自动驾驶和机器人尤其重要。真实危险事件稀有、采集成本高、复现困难。能生成可控反事实，往往比在普通视频指标上提升一点更有工程价值。

数据引擎

视频世界模型可以参与数据回流：从真实失败中生成相邻反事实，扩增长尾场景，给策略学习提供 imagined data，帮助发现策略在未见动作分布上的风险，并作为人工标注和复盘的可视化界面。

但合成数据不能直接信任。它需要被真实数据校准，被 closed-loop evaluation 过滤，并且要避免把模型自己的偏差再喂回训练集。

五、评测：逼真、动力学、动作一致性和闭环收益

评测视频世界模型不能只看 FID、FVD 或人眼观感。更完整的评测应分四层：

层级	关注点	典型问题
视觉层	视频是否清晰、连续、物体不乱跳	看起来是否合理
动力学层	接触、遮挡、碰撞、速度是否符合世界规律	物体是否按动作后果变化
任务层	预测是否能帮助选择动作	用它规划是否提升成功率
风险层	稀有失败和不确定性是否被表达	危险未来是否被低估

如果方法声称自己是 VAM 或 WAM，还应额外看动作条件是否真的生效：固定历史、改变动作时，未来应随动作合理变化；固定动作、改变场景结构时，风险应随场景变化；长 horizon rollout 要保持关键对象和目标状态；与真实环境闭环交互后，任务成功率、碰撞率、恢复率应有改善；不确定性也要校准，而不是只生成一个过度平滑的平均未来。

六、风险与失效模式

视频世界模型最常见的误区是把“视觉逼真”误当成“世界正确”。风险通常来自六个方向：视觉上对、动力学上错，纹理、背景和运动合理但接触、质量、摩擦、遮挡和碰撞不对；短期预测可信但长期 rollout 漂移，最后进入模型自己的幻觉世界；数据里常见的安全路径被过拟合，稀有危险事件被低估；动作影响被历史视频惯性弱化；生成质量高但采样慢、显存高，无法进入规划链路；模型生成的偏差又被再次训练，导致策略越来越适应模拟器而不是现实。

这些风险决定了一个实践原则：生成式模拟必须绑定真实环境验证、反事实样本审计和风险校准，而不能只作为视频生成 demo。

七、落地清单

设计生成式模拟系统时，先明确输出服务谁：人审、数据增强、策略训练、在线规划还是风险评估；再明确动作表示是连续控制、离散技能、语言目标还是轨迹候选，并选择像素、离散 token、连续 latent 或混合结构作为表示空间。上线前还要把频率和预算分清，高频控制、中频规划、低频分析不能混用同一成本模型；评测要同时看视觉、动力学、动作一致性、闭环任务和风险校准；反事实接口必须能固定历史并系统性改变动作、场景和目标；合成样本要标记来源、置信度和适用范围；最终仍要回到真实环境闭环验证，看任务成功率、恢复率、碰撞率和成本。

最直接的判断是：如果一个视频世界模型不能让系统更好地选择动作、发现风险或构造有价值的反事实，那它还只是视频生成模型；只有当它能改变规划、训练和回流决策时，才真正进入世界模型的工程范畴。

Charles's Castle

世界模型：生成式模拟与视频世界模型

一、定义：从视频预测到可规划模拟

二、三条主线：AR Token、Diffusion 与 Latent Rollout

视频 tokenizer 与 latent 表示

选择路线时看什么

案例：从视频生成器继续训练成世界模型

三、动作条件：VAM、WAM 与反事实的分水岭

动作怎么注入

VAM 和 WAM 的位置

四、系统用法：规划、回放、数据引擎

在线规划

反事实与失败回放

数据引擎

五、评测：逼真、动力学、动作一致性和闭环收益

六、风险与失效模式

七、落地清单