世界模型:WM / WAM / VAM:动作条件建模

世界模型:WM / WAM / VAM:动作条件建模

Charles Lv7

近两年世界模型讨论里,很多论文都在谈未来预测、动作建模、视频生成、控制和仿真,但它们强调的对象并不完全相同。WM / WAM / VAM 不是社区唯一标准术语,却很适合做阅读地图:WM(World Model)强调世界动态,WAM(World-Action Model)强调动作和世界未来的联合建模,VAM(Video-Action Model)强调视频表示与动作建模的统一。

这页的目标不是争论术语,而是帮助你快速判断一篇工作到底在建模什么、接口是什么、适合什么应用、容易在哪里失效。

初学者先抓住

WM 更像“给动作,预测世界”,WAM 更像“动作和未来世界一起建模”,VAM 更像“把视频时序先验接到动作建模”。读论文时先看输入输出接口,而不是被缩写本身带跑。

有趣例子:三种导演视角

WM 像场景模拟师,关心世界会怎么变;WAM 像动作导演,关心角色该怎么动以及动完画面怎样;VAM 像视频导演,先抓住时序画面规律,再把它用于行动。

DreamZero joint video-action prediction 原论文图

图源:DreamZero,Figure 2。原论文图意:把未来视频和未来动作放到同一个生成过程里建模,让动作序列必须和视觉未来对齐。

图解:为什么这张图适合作为 WAM 入口

传统世界模型常是“给定动作,预测未来”;普通 VLA 常是“给定观测,输出动作”。DreamZero 这张图把两件事绑在一起:未来视频不再只是展示用的 rollout,动作也不再只是行为克隆标签。读 WAM 时要看三件事:动作 token 在哪里进入模型,未来视觉和动作是否共享上下文,执行后是否用真实新观测刷新,而不是一直相信自己生成的未来。

统一问题

三条路线都围绕同一个基本问题:

给定历史观测、动作和目标,未来会怎样演化?\text{给定历史观测、动作和目标,未来会怎样演化?}

区别在于建模对象不同:

路线 更关注什么 典型形式
WM 世界状态或潜状态如何随动作演化 p(zt+1:t+Hzt,at:t+H1)p(z_{t+1:t+H}\mid z_t,a_{t:t+H-1})
WAM 动作未来和世界未来如何联合生成 p(ot+1:t+H,at:t+H1ot,g)p(o_{t+1:t+H},a_{t:t+H-1}\mid o_{\le t},g)
VAM 视频时序表示如何支撑动作泛化 p(vt+1:t+H,at:t+H1vt,g)p(v_{t+1:t+H},a_{t:t+H-1}\mid v_{\le t},g)

三者不是互斥集合,更像坐标系。一篇工作可能同时有 latent dynamics、动作联合生成接口和视频 latent。

WM:世界动态建模

WM 是范围最大的词。只要模型在学习世界如何随动作、时间和任务条件变化,并且这种预测能被规划、控制或数据闭环消费,就可以归入广义 world model。

典型目标包括学到可 rollout 的环境动态,在不直接上真实环境试错的情况下做 imagined planning,支持 reward、value、risk、termination 等辅助预测,并为 planner、policy 和数据回流提供内部环境表征。

典型实现包括 RSSM / Dreamer 一类 latent dynamics、未来观测生成模型、带 reward/risk head 的环境预测器,以及结合 occupancy、object state 或 BEV 的结构化世界表示。

WM 的核心问题不是“动作应该怎么生成”,而是世界的最小可决策表示是什么,如何稳定长时 rollout,如何把环境模型和 planner 接起来,以及在部分可观测下如何维护 belief state。

WAM:动作与世界联合建模

WAM 可以理解成从经典 WM + policy 往前走一步:不再只先学世界模型、再单独学 policy,而是直接学习动作和未来世界的联合分布。

它的直觉是:世界如何演化和动作如何生成本来就强耦合,好动作常常必须通过未来世界状态来判断,复杂控制中的动作先验本身就是世界结构的一部分,而机器人和驾驶数据天然就是观测与动作交织的轨迹。

这让 WAM 对机器人特别有吸引力。抓杯子、拉抽屉、绕障、重定位这类动作是否合理,不能只看当前帧,而要看动作执行后的未来状态。

WAM 和经典 WM 的区别可以简单记为:经典 WM 更强调“给动作,预测世界”,WAM 更强调“给目标和历史,同时生成动作与世界未来”。

VAM:视频先验进入动作建模

VAM 更明确地把视频表示放在中心位置。它关心的是:能否把视频模型学到的时空先验、物体运动、遮挡、接触和交互模式,迁移到动作生成和控制中。

VAM 的吸引力来自几个事实:视频包含丰富的时序和交互信息,视频数据规模通常远大于机器人动作数据,视频预训练可能比静态图像更利于动作泛化,视频 latent 也可以作为动作模型的动态上下文。

Video Prediction Policy overview 原论文图

图源:Video Prediction Policy,Figure 1。原论文图意:先让文本条件视频预测模型学习操作过程中的未来视觉,再用预测表征作为动作生成条件。

图解:VAM 不是把视频生成结果直接拿去执行

这张图的重点在中间表征:视频预测模型学到的是“接下来会怎样动”的动态上下文,下游动作模型再利用这些表征生成机器人动作。也就是说,VAM 的价值不一定来自完整解码清晰视频,而是来自视频模型内部保留了物体运动、遮挡、接触和任务阶段信息。

但 VAM 不等于“会生成视频”。真正要验证的是视频 latent 是否有利于动作生成,视频未来是否帮助筛掉危险动作,视频历史是否帮助理解 affordance,以及生成能力是否能转化为闭环控制收益。

如果只看视频逼真度,而不看动作成功率、恢复能力和风险控制,就会高估 VAM 的实际价值。

接口与目标函数差异

三者在系统接口和目标函数上的差异,会直接影响部署价值。

维度 WM WAM VAM
输入 状态/观测 + 候选动作 历史观测 + 目标 视频历史 + 目标/动作条件
输出 未来状态、reward、risk、termination 未来动作 + 未来观测 未来视频 latent + 动作
训练目标 重建、dynamics、reward/risk 联合序列建模、动作一致性 视频预测、视频-动作对齐
消费方 planner、value、risk module policy、planner、trajectory generator action model、data engine、simulator
主要风险 rollout 漂移、预测对控制无用 动作偏差、训练归因复杂 视频好看但控制无收益

更偏 WM 的模型常适合规划与风险评估;更偏 WAM 的模型适合统一动作生成和未来模拟;更偏 VAM 的模型适合利用大规模视频做泛化和数据合成。

应用中的取舍

不同应用对三者的偏好不同:

场景 更需要什么 原因
Model-based RL WM 需要大量 imagined rollout 和 value learning
机器人长任务 WAM + WM 动作、目标和未来状态强耦合
自动驾驶 WM + 结构化场景表示 风险、占用、轨迹和反事实更关键
视频数据引擎 VAM + WM 需要生成可筛选、可对比的未来
具身泛化 VAM + WAM 需要从视频先验迁移到动作
安全规划 WM + risk head 需要保守、可解释、可回退的未来预测

实际系统往往不会纯用一种路线,而是组合:例如用视频模型提供动态先验,用结构化 WM 提供风险和可通行性,用 WAM 或 policy head 输出可执行动作。

常见误区

最常见的误读有五类。第一是把 WM 等同于视频生成,但视觉逼真不等于对动作敏感,也不等于能改善规划。第二是把 WAM 等同于行为克隆,而 WAM 的重点是动作和世界未来联合建模,不只是拟合下一步动作。第三是把 VAM 等同于视频模型加动作标签,实际上核心是视频 latent 是否真的服务控制。第四是只看 open-loop 指标,开环预测好不代表闭环任务成功。第五是忽略动作接口,因为动作表示、频率、控制层级和执行约束会决定模型能否落地。

判断一篇工作时,建议固定问:动作条件放在哪一层,未来预测最终被谁消费,评测是否包含闭环收益,失败是来自表示、规划、动作接口还是数据偏差,系统成本是否允许它进入真实控制循环。

阅读建议

建议按一条由基础到验收的路径读本专题:先读 世界模型路线图 建立广义但面向决策的定义,再读 RSSM、Dreamer 与规划 理解经典 latent dynamics;随后进入 生成式模拟与视频世界模型,看视频路线为什么会进入世界模型;再读 规划即推断与潜在动作,理解动作、目标和规划接口;最后用 世界模型评测与失效模式 判断这些模型是否真的改善决策。

WM、WAM、VAM 最适合作为阅读坐标系,而不是硬标签。真正重要的是模型学习了什么动态结构,这些结构如何进入动作决策,以及闭环收益是否足以覆盖训练和推理成本。

  • Title: 世界模型:WM / WAM / VAM:动作条件建模
  • Author: Charles
  • Created at : 2026-05-13 09:00:00
  • Updated at : 2026-05-13 09:00:00
  • Link: https://charles2530.github.io/2026/05/13/ai-files-world-models-wm-wam-vam-and-action-conditioned-modeling/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments