具身智能:VLA、WAM 与世界模型地图
这一页专门解决一个容易卡住的问题:VLA、世界模型、DreamZero、π0.5、LingBot-World、轨迹生成、Sim2Real 到底是什么关系。
先给结论:具身智能不是某一个模型名字,而是一套闭环系统。模型只负责其中一部分,真正落地还要有感知、状态估计、动作接口、规划控制、安全、数据引擎和评测脚本。
1. 一张总图:具身系统的七层
可以把具身智能拆成七层:
1 | 任务目标 / 语言指令 |

图源:π0.5,Figure 3。原论文图意:π0.5 把 high-level subtask prediction 和 flow-matching action expert 放进同一套 VLA 推理流程。
图左侧的多模态输入对应“感知与状态估计”,中间的 high-level prediction 对应“语义与子任务”,右侧的 action expert 对应“动作表示与策略”。它也暴露出 VLA 的边界:图里没有显式展开候选动作未来,也没有替代低层安全控制,所以后面还要接世界模型、planner、controller 和 success checker。
| 层级 | 负责的问题 | 典型对象 | 论文案例 |
|---|---|---|---|
| 感知与状态估计 | 机器人现在看见什么、物体在哪里、自己在哪里 | RGB、RGB-D、多视角、6D pose、proprioception | π0.5 的 4 路相机输入、DreamZero 的 visual context |
| 高层语义与子任务 | 当前应该处理哪个对象、下一步语义动作是什么 | pick up the plate、open the drawer、affordance |
π0.5 的 high-level subtask prediction |
| 动作表示与策略 | 动作怎么输出,输出多长,给谁执行 | action token、action chunk、末端位姿、关节角、夹爪命令 | π0.5 的 FAST + flow action expert |
| 世界模型 | 如果这样做,未来会怎样 | future video、latent state、reward、risk、continue | Dreamer、LingBot-World |
| WAM | 同时建模未来世界和未来动作 | joint video-action prediction | DreamZero |
| 规划控制与安全 | 动作能不能执行、会不会碰撞、是否越界 | IK、cuRobo、STOMP、MPC、safety filter | 资产/轨迹数据管线、SayCan 式 affordance |
| 数据与评测 | 数据从哪里来、怎么判断成功、失败如何回流 | demos、assets、success checker、task progress | π0.5 的异构数据,DreamZero 的 diverse data |
这张表比“某个模型强不强”更重要。读论文时先问:它主要强化的是哪一层?是更会看、更会拆任务、更会出动作、更会预测未来,还是让数据和评测更可靠?
2. 三个核心数学接口
VLA:从观测和语言直接到动作
VLA 通常学习:
其中:
- :历史视觉观测;
- :机器人本体状态,例如关节角、夹爪状态、底盘状态;
- :语言指令;
- :未来一小段动作,也叫 action chunk。
VLA 的优势是直接:看见当前场景后就输出动作。它的短板是,它不一定显式知道“这个动作执行后未来会怎样”。
世界模型:从状态和动作预测未来
世界模型更像内部模拟器:
它不只是问“现在做什么”,而是问“如果做这些动作,未来观测、奖励、风险和终止状态会怎样”。这条路线适合规划、反事实比较、风险评估和数据生成,但它不一定直接输出可执行动作。
WAM:把未来世界和未来动作一起建模
DreamZero 代表的 World Action Model 可以写成:
它同时生成未来视频和未来动作。直觉上,模型既要想象“世界会变成什么样”,又要给出“哪个动作会导致这个未来”。这就是 DreamZero 为什么比普通视频世界模型更靠近 policy。
3. 四条路线怎么区分
| 路线 | 核心问题 | 优势 | 风险 |
|---|---|---|---|
| 经典 pipeline | 先检测/估计状态,再规划轨迹,再控制执行 | 可解释、容易加安全约束、适合工业和高精度任务 | 语义开放性弱,手工接口多 |
| VLA policy | 观测和语言直接输出动作 | 学习端到端技能,适合跨任务泛化 | 不显式预测未来,失败恢复和安全要额外设计 |
| 世界模型 | 给定动作预测未来 | 能做 what-if、规划、风险评估和数据生成 | 视觉好看不等于动作因果正确 |
| WAM | 联合预测未来视频和动作 | 世界预测和动作输出强绑定,可能直接成为 policy | 推理成本高,视频未来错时动作也会跟着错 |
所以 π0.5、DreamZero、LingBot-World 不是同一类东西:
| 系统 | 更像什么 | 解决的主要问题 |
|---|---|---|
| π0.5 | VLA policy | 新家庭、新物体和长任务中,如何从高层语言目标生成子任务和动作块 |
| DreamZero | WAM policy | 如何让视频基础模型通过 joint video-action prediction 直接输出可执行动作 |
| LingBot-World | interactive world simulator | 如何把视频生成模型改造成动作条件、因果化、少步、实时的世界模拟器 |
| Dreamer | latent world model + RL | 如何在 latent imagination 中训练 actor/value,减少真实交互成本 |
4. π0.5:它教会我们怎样理解 VLA
π0.5 的重点不是“机械臂又会抓东西了”,而是它把 VLA 拆成了高层语义和低层动作两条输出路径。
1 | 高层任务: clean the kitchen |
| π0.5 设计 | 放回具身系统里怎么理解 |
|---|---|
| heterogeneous co-training | 开放世界泛化不能只靠目标机器人数据,要混合 web 语义、跨机器人数据、移动操作数据和人类指导 |
| high-level subtask prediction | 长任务需要显式或隐式任务分解,否则模型只会做短技能 |
| FAST action tokens | 把动作离散化,方便和文本、bbox、web/VLM 数据一起做大规模预训练 |
| flow matching action expert | 真实控制需要连续动作,不能完全依赖离散 token 自回归输出 |
| task progress rubric | 长任务不能只看最终成功/失败,要看每个阶段完成到哪里 |
π0.5 最适合理解“VLA 是什么”:它把视觉语言状态映射到动作,同时用高层子任务缓解长任务难度。它不等于完整世界模型,因为它主要输出动作,并没有显式展开多个候选动作的未来后果。
HL 解决“下一步语义上该做什么”,action expert 解决“身体怎么动”。这两个问题不能混在一起。一个模型可能知道该拿盘子,但不会稳定抓;也可能能抓盘子,但不知道清理厨房下一步该抓什么。
5. DreamZero:它教会我们怎样理解 WAM
DreamZero 的关键是把视频基础模型改造成 joint video-action model。它不是先预测视频、再用另一个模型反推动作,而是在同一个生成过程中一起预测未来视频和动作。
1 | current visual context + language + robot state |

图源:DreamZero,Figure 4。原论文图意:DreamZero 在视频生成主干中组织 visual context、language、robot state 和 action prediction,使未来视频和动作共享生成上下文。
读这张架构图时看四个接口:视觉历史如何进模型,机器人状态如何进模型,动作从哪里解码,执行后如何回到真实观测。只有这四个接口都说清楚,WAM 才能从“会生成未来画面”变成“能进入机器人控制循环”的系统模块。
| DreamZero 设计 | 放回具身系统里怎么理解 |
|---|---|
| joint video-action prediction | 动作必须解释未来视觉变化,未来视觉也必须和动作一致 |
| autoregressive WAM | 适合闭环执行和 KV cache,比双向整段生成更接近控制需求 |
| real observation feedback | 执行动作后用真实观测刷新上下文,避免完全依赖自己生成的视频 |
| DreamZero-Flash | 机器人控制有 reactivity gap,少步化和系统优化是能力的一部分 |
| video error -> wrong action | WAM 的动作会忠实跟随错误视频计划,因此需要风险检测和安全层 |
DreamZero 最适合理解“世界模型和 policy 的边界正在变模糊”。传统世界模型是给 planner 用的;DreamZero 让 WAM 自己直接成为 policy。但这也带来新风险:如果未来视频预测错,动作可能不是随机错,而是很一致地执行错误未来。
它比 VLA 多学了未来后果,因此更能利用异质数据和跨任务动态;但它比普通 VLA 更贵、更慢,也更依赖视频预测质量。它不是免费升级,而是把“会想象未来”引入策略后必须付出的系统代价。
6. LingBot-World 和 Dreamer:世界模型的两种用途
LingBot-World 和 Dreamer 都是世界模型,但用途不同。
| 路线 | 世界模型输出 | 谁消费这个输出 | 典型用途 |
|---|---|---|---|
| LingBot-World | 动作条件未来视频 | 人、planner、模拟器、数据引擎 | 交互模拟、反事实视频、训练数据生成 |
| Dreamer | latent state、reward、continue | actor/value | 在想象轨迹里训练策略 |
| DreamZero | 未来视频 + 未来动作 | 机器人控制循环 | WAM 直接当 policy |
LingBot-World 说明视频生成模型要成为世界模拟器,必须补动作条件、长时记忆、因果化和少步推理。Dreamer 说明世界模型不一定要生成像素,只要 latent dynamics 能支持奖励预测和策略训练,也可以非常有用。
因此不要把世界模型狭义理解成“生成未来视频”。更准确的判断标准是:
- 它是否对动作敏感;
- 它是否能维持同一个世界状态;
- 它的输出是否被 planner、policy、risk module 或 data engine 消费;
- 它是否在闭环中改善任务结果。
7. 你那条资产和轨迹 pipeline 放在哪
你整理的流程:
1 | 3D 模型+纹理 -> 物理属性 -> 导入资产 -> 抓取轴 |
它不是和 π0.5 / DreamZero 对立的路线,而是在给 VLA、WAM 和传统 planner 提供基础设施:
| pipeline 组件 | 给模型路线提供什么 |
|---|---|
| 资产和纹理 | 视觉输入分布、物体类别、尺度变化 |
| 物理属性 | 接触、摩擦、质量、仿真动力学 |
| 抓取轴标注 | grasp candidates、pregrasp、approach direction |
| 场景布置 | clean / random evaluation、domain randomization |
| 任务判定脚本 | 自动过滤失败、生成 task progress 和 success labels |
| cuRobo / STOMP 轨迹 | 行为克隆 GT、planner baseline、任务可行性验证 |
| 失败复位重试 | 数据引擎、hard case mining、评测稳定性 |
换句话说,π0.5 这类 VLA 需要大量动作轨迹和任务数据;DreamZero 这类 WAM 需要视频和动作对齐轨迹;传统 planner 需要资产、碰撞网格和抓取标注。这条 pipeline 正好是这些路线共同依赖的数据底座。
8. 初学者最容易混的六组概念
| 容易混的概念 | 正确区分 |
|---|---|
| VLM vs VLA | VLM 主要回答视觉语言问题,VLA 要输出可执行动作 |
| VLA vs world model | VLA 直接给动作,world model 预测动作后果 |
| world model vs WAM | world model 可以只预测未来状态,WAM 同时预测未来状态和动作 |
| action chunk vs trajectory | action chunk 是短窗口动作,trajectory 是完整任务轨迹 |
| planning vs control | planning 找路径或目标序列,control 高频跟踪并处理动力学 |
| success rate vs task progress | success rate 只看最终是否成功,task progress 能看长任务完成到哪一步 |
记住这六组,读 π0.5、DreamZero 和具身数据 pipeline 会清楚很多。
9. 推荐阅读顺序
如果你现在对具身智能还没有整体感,建议这样读:
- 先读 具身智能从零路线,把基本名词和学习顺序立住。
- 再读本页,建立 VLA、WAM、世界模型和工程 pipeline 的层级关系。
- 然后读 一个任务跑通具身闭环,用尺寸排序和容器匹配任务把状态、轨迹、执行和判定连起来。
- 再读 资产到轨迹:感知、抓取与数据管线,搞清楚数据从哪里来。
- 接着读 VLA 动作表示与控制接口,理解动作怎么进模型、怎么出模型。
- 再读 规划、控制与安全,理解为什么动作还要经过 planner/controller/safety。
- 然后读 π0.5,把 VLA 路线放进真实长任务。
- 最后读 DreamZero 和 LingBot-World,理解世界模型路线怎样进入机器人闭环。
读完后,回到一个问题检验是否理解:给定“整理厨房”这个任务,你能否说清楚系统如何看见场景、分解子任务、生成动作、预测风险、执行控制、判定成功,并把失败样本回流到下一轮训练。
- Title: 具身智能:VLA、WAM 与世界模型地图
- Author: Charles
- Created at : 2025-06-20 09:00:00
- Updated at : 2025-06-20 09:00:00
- Link: https://charles2530.github.io/2025/06/20/ai-files-embodied-ai-vla-wam-world-model-system-map/
- License: This work is licensed under CC BY-NC-SA 4.0.