世界模型:WM / WAM / VAM:动作到底怎样进入世界模型
这篇回答的问题。 如何理解“WM / WAM / VAM”背后的核心机制、适用边界和下一步阅读路径。
近两年,世界模型、视频模型和机器人策略越来越容易被写到同一篇论文里:有的给动作预测未来,有的直接从视觉语言输出动作,有的把未来视频和未来动作一起生成。WM / WAM / VAM 不是统一标准术语,但很适合作为读论文的接口坐标系。
这页只抓一个问题:动作在模型里放在哪里,决定了它能不能服务规划和控制。
不要先问模型名字。先问四件事:输入里有没有动作,输出里有没有未来,换动作后未来会不会变,最后谁消费这个未来。一个模型能生成漂亮视频,不等于能做控制;一个模型能输出动作,也不等于理解动作后果。世界模型用于机器人时,最小门槛是:同一历史下换一条动作,模型预测的未来、风险或成功排序应该随之改变。
先把接口摆正
| 路线 | 动作在哪里 | 模型回答的问题 | 主要消费方 | 最容易误读成 |
|---|---|---|---|---|
| WM | 动作是条件 | 如果我做 ,世界会怎样变 | planner、critic、risk checker | 普通视频预测器 |
| VLA policy | 动作是输出 | 当前观测和语言下,现在该做什么 | controller、task executor | 有世界模型的 agent |
| WAM | 动作和未来联合输出 | 目标下,什么动作和什么未来应该一起出现 | policy、trajectory generator、closed-loop controller | 视频模型加动作头 |
| VAM | 视频预测表征服务动作 | 视频模型学到的动态先验能不能帮助选动作 | action model、data engine、robot policy | 生成视频就能控制 |
这张表的用法不是给缩写下定义,而是防止证据错位。WM 要看反事实动作和候选动作排序;VLA 要看真实动作成功率和恢复;WAM 要看视频、动作和闭环执行是否互相支撑;VAM 要看视频预测的中间表征是否真的提升 policy,而不是视频画质是否好看。
WM:动作作为条件,未来作为评估对象
最清楚的世界模型接口是:
是当前 latent state, 是候选动作序列, 是 reward 或任务进展, 是 done / continuation, 是 risk 或 uncertainty, 是语言、目标图像、地图等上下文。这个式子的重点不是概率符号,而是动作在条件里:模型被要求回答“给定这串动作,未来会怎样”。
Dreamer 系列是干净的 WM 基线。它不追求把每个未来像素画清楚,而是在 latent space 里学习 dynamics,再用 imagined rollout 训练 actor 和 critic。读 Dreamer 时要看动作如何进入 transition、reward/value 如何消费未来,而不是把它当成普通视频生成器。
WM 的核心证据是反事实动作。固定同一个 ,替换 ,未来状态、reward、risk 或 done 应该合理变化。如果换动作后未来几乎不变,模型只是惯性视频预测器;如果未来会变,但 reward/risk 不变,planner 仍然没有可靠依据。
Genie 2 / Genie 3 这类可交互世界模型把这个接口扩展到更开放的 3D 环境:从图像或提示生成可被人或 AI agent 操作的 playable world。它说明“世界模型”不只限于机器人 latent dynamics,也可以是可交互生成环境。但用于机器人控制时仍要补上机器人动作空间、风险、任务成功、真实观测刷新和安全层。
VLA:能输出动作,不等于有世界模型
VLA policy 的常见接口更像:
是观测历史, 是语言指令,输出直接是动作 token、连续控制量或 action chunk。RT-2 这类模型的意义在于把 web-scale 视觉语言知识迁移到机器人动作空间;Open X-Embodiment / RT-X 则说明跨机器人数据需要处理动作口径、相机、embodiment 和任务语义。
但 policy 输出动作,不代表模型内部显式预测了动作后果。一个 VLA 可以很会把“把苹果放进碗里”翻译成动作模板,却不一定能回答“如果我从右侧推,苹果会不会碰倒杯子”。所以本站不把所有 VLA 都称为世界模型。只有当模型显式预测或评估动作后的未来,并让 planner、risk checker 或 policy 消费这个未来时,才进入世界模型证据层。
这不是贬低 VLA。很多真实系统会让 VLA 直接做 policy,再用世界模型或风险模型做前瞻检查。关键是把角色说清:VLA 负责把语义落到动作,WM 负责评估动作后果,低层 controller 负责让动作可执行。
WAM:动作和未来世界一起生成
WAM 更像把 world model 和 policy 合成一个生成过程。它不只是问“给定动作后未来怎样”,还问“在这个目标下,什么动作和什么未来应该一起出现”。简化接口可以写成:
是历史观测, 是本体状态, 是语言或目标条件,模型同时输出未来观测和未来动作。动作不再只是外部输入,而是和未来世界一起被建模。

图源:World Action Models are Zero-shot Policies / DreamZero,Figure 4。本站复用已有论文图,未使用 image2 生成新图。原图表达:训练时联合去噪未来视频 latent 和动作 latent,推理时用真实观测刷新上下文。本站读法:WAM 不是“视频模型旁边加动作头”,而是让动作与未来世界互相约束,并在闭环中不断用真实观测纠偏。
WAM 的吸引力在于,很多机器人动作的合理性只能通过未来来判断。抓杯子不是单帧分类,拉抽屉也不是一句语言到一个动作 token 的翻译;它们要求模型理解接触、遮挡、手爪姿态、目标物移动和失败恢复。把未来视觉和未来动作联合建模,理论上能让模型从视频动态里学到更多物理约束。
但 WAM 的风险也更难排查。动作错了,未来视频可能仍然看起来合理;未来视频错了,动作又可能被错误未来“解释”得好像合理。联合生成会让归因变难:到底是语言理解错、视频动态错、动作接口错,还是闭环刷新太慢?
所以读 WAM 论文时,要把 open-loop 和 closed-loop 分开。open-loop 视频能证明模型会生成某种未来;closed-loop rollout 才证明动作在真实观测刷新后还能继续有效。DreamZero 论文和项目页报告了 7Hz closed-loop control、real robot generalization 和 cross-embodiment transfer,这类证据比单纯展示未来视频更接近 WAM 的核心 claim;但它仍是特定数据、机器人平台和任务集合下的论文证据。
VAM:视频先验不直接等于策略
VAM 可以理解成“让视频模型的动态表征帮助动作生成”。它通常不要求视频模型自己就是 planner,而是把未来预测过程中的 latent、attention 或 intermediate feature 交给 action model。
是视频模型, 是预测过程中产生的动态表征, 是动作模型。这个式子想表达的重点是:视频模型提供的不是最终画出来的视频,而是对未来运动、遮挡、接触和任务阶段的内部表示。

图源:Video Prediction Policy,Figure 1。本站复用已有论文图,未使用 image2 生成新图。原图展示先训练文本条件视频预测模型,再聚合视频模型内部 predictive visual representations 来输出机器人动作。本站读法:中间表征比最终视频画质更关键;VAM 要证明视频预测学到的动态先验能提升动作成功率。
VPP 的动机很直接:传统视觉 encoder 往往偏静态,能识别物体,却不一定知道下一秒手和物体会怎样相互作用;视频扩散模型为了预测未来帧,可能学到更强的动态表征。VAM 把这种动态表征转给 policy,让动作模型少从零学习物理变化。
这条路线的边界也要讲清。视频好看不等于动作成功,FVD 或视觉质量不等于控制质量。一个合格 VAM 实验应报告动作成功率、真实机器人 rollout、跨场景泛化、失败恢复、动作平滑度和推理延迟。视频预测只是中间机制,机器人是否完成任务才是最终证据。
V-JEPA 2-AC:在 latent 里比较动作后果
V-JEPA 2-AC 很适合作为 WM 与 VAM 之间的桥。它先用大规模视频/图像做 action-free self-supervised representation,再用少量机器人轨迹后训练 action-conditioned world model。规划时,给当前观测、目标图像和候选动作序列,在 latent space 里 rollout,选让未来表示接近目标表示的动作。
这个公式的重点是:动作作为候选条件进入模型,未来 latent 作为比较对象,planner 选择代价最低的动作。它比纯 VLA 更强调动作后果,比完整视频生成更节省输出成本。它也提醒我们:action-free 视频预训练可以提供动态先验,但要规划真实动作,仍需要 interaction data 把表示接到 action-conditioned world model。
动作放在哪里,失败就在哪里
| 动作位置 | 典型失败 | 怎么验证 |
|---|---|---|
| 输入条件 | 模型忽略动作,未来只按视频惯性滚动。 | 固定历史,替换动作,比较未来 latent、reward、risk。 |
| 输出动作 | 动作像训练集平均行为,不理解后果。 | 真实观测刷新后连续执行,看是否能恢复偏差。 |
| 联合输出 | 视频和动作互相“圆谎”,归因困难。 | 分开评估视频预测、动作成功、失败回放和人审。 |
| prompt 弱条件 | 文本说左转,模型按常见运动继续。 | 构造反事实 prompt 和动作冲突案例。 |
| latent planning | latent 距离不等于任务成功。 | 用真实机器人或 simulator 验证 goal reach、collision、done。 |
这张表是写作和实验的核心。世界模型不是一个标签,而是动作、未来和消费方之间的合同。合同最薄的地方,就是最容易失败的地方。
一个机器人系统还必须处理闭环刷新。无论模型多强,真实环境都会偏离想象:物体滑动、遮挡变化、手爪接触失败、相机延迟、控制器限幅都会改变下一步输入。开环生成两秒动作看起来顺滑,不代表闭环执行安全。靠谱系统通常会短 horizon 执行、重新观测、重新规划,并把失败样本回流给数据引擎。
按消费方读证据
| 消费方 | 应该看的证据 | 不能替代它的证据 |
|---|---|---|
| Planner | candidate ranking、MPC / CEM ablation、closed-loop success、cost per success | 只展示未来视频 |
| Policy | action chunk 成功率、真实观测刷新后的稳定性、失败恢复 | 离线 action L2 loss |
| Risk checker | collision recall、near-miss recall、risk calibration | 视频清晰度或 CLIPScore |
| Data engine | hard-negative yield、failure replay usefulness、新任务覆盖 | 合成样本数量 |
| 人审 / 调试 | 可视 rollout、反事实回放、错误归因 | 平均 benchmark 分数 |
论文里最容易偷换的是证据等级。视频 demo 只能说明模型能生成可视未来;offline benchmark 只能说明某些数据分布上预测或动作接近标签;real robot closed-loop 才能说明模型输出在真实噪声、延迟和偏差下仍能完成任务。读 WM/WAM/VAM 论文时,先把证据放到对应消费方,再判断 claim 有没有越界。
最后判断
WM / WAM / VAM 的核心不是缩写,而是动作接口。
WM 把动作作为条件,最小证据是反事实动作会改变未来、reward 或 risk。WAM 把动作和未来联合生成,最小证据是真实观测刷新后的闭环执行。VAM 用视频预测表征帮助动作,最小证据是机器人任务成功率和泛化,而不是视频画质。
大规模视频预训练可以提供动态先验,但要服务控制,必须接上动作、目标、风险、延迟和恢复。读相邻内容时,可以接 RSSM、Dreamer 与规划、Masked / JEPA 与潜变量预测、VLA 动作表示与控制接口 和 世界模型评测与失效模式。
外部精读
- DreamerV3:理解 latent world model 如何通过 imagined future 训练行为。
- Genie 2 DeepMind blog:理解 action-controllable world model 和可交互生成环境的边界。
- Genie 3:看 Google DeepMind 对交互式世界模型最新入口的官方表述。
- V-JEPA 2 Meta research page:理解 action-free 视频预训练如何接到 action-conditioned planning。
- DreamZero / World Action Models:理解 WAM 为什么强调联合预测未来视频和动作,以及为什么要看 closed-loop control。
- Video Prediction Policy:理解 VAM 如何把视频模型内部的 predictive visual representation 接到机器人动作。
- RT-2 DeepMind blog:对比 VLA 直接输出动作与 WM/WAM/VAM 预测动作后果之间的差异。
- Title: 世界模型:WM / WAM / VAM:动作到底怎样进入世界模型
- Author: Charles
- Created at : 2026-03-19 09:00:00
- Updated at : 2026-03-19 09:00:00
- Link: https://charles2530.github.io/2026/03/19/ai-files-world-models-wm-wam-vam-and-action-conditioned-modeling/
- License: This work is licensed under CC BY-NC-SA 4.0.