论文专题讲解:DreamZero:世界动作模型为什么可以做零样本策略

论文专题讲解:DreamZero:世界动作模型为什么可以做零样本策略

Charles Lv8
论文信息

论文题名: World Action Models are Zero-shot Policies。

作者: Seonghyeon Ye、Yunhao Ge、Kaiyuan Zheng、Shenyuan Gao、Sihyun Yu、George Kurian、Suneel Indupuru、You Liang Tan、Chuning Zhu、Jiannan Xiang 等(共 36 人)。

机构: NVIDIA。

时间 / 主题: 2026-02;具身智能。

arXiv / 官方报告: arXiv:2602.15922;官方材料:dreamzero0.github.io/

GitHub / 项目: GitHub:未找到官方链接;项目页:dreamzero0.github.io/

元数据来源与核验口径: 来源:arXiv官方 / 项目材料;Checked Date:2026-06-15;Repro Status:Paper / official materials reviewed, independent reproduction not claimed。

DreamZero 这篇论文要回答一个比“视频生成模型能不能预测未来”更尖锐的问题:如果模型一边预测未来画面,一边预测产生这些画面的机器人动作,它能不能直接变成闭环机器人 policy?

这就是论文所谓的 World Action Model,简称 WAM。普通 VLA 学的是“当前图像和语言 -> 动作”;WAM 学的是“当前世界状态和语言 -> 未来世界怎样变化,以及机器人要做哪段动作”。两者都输出动作,但学习信号完全不同。VLA 容易把动作当成标签回归;WAM 被迫解释动作的后果,因此更接近“我知道这样动会把世界推到哪里”。

一句话核心

DreamZero 的核心不是把视频模型拿来当想象模块,而是把视频扩散模型改造成一个联合去噪器:

pθ(vt+1:t+H,at:t+Kot,st,l)p_\theta(v_{t+1:t+H}, a_{t:t+K} \mid o_{\le t}, s_{\le t}, l)

其中 vt+1:t+Hv_{t+1:t+H} 表示未来视频 latent,at:t+Ka_{t:t+K} 表示未来一段 action chunk,oto_{\le t} 是历史视觉观测,sts_{\le t} 是机器人本体状态,ll 是语言指令。这个式子最重要的部分不是条件很多,而是输出同时包含 video 和 action:动作不再只是独立回归目标,而必须和未来画面变化一致。

DreamZero overview

图源:World Action Models are Zero-shot Policies,Figure 1。原图表达 DreamZero 的路线:从预训练视频扩散模型继承世界动态先验,再通过视频-动作联合建模支持多样机器人数据、未见任务泛化、跨具身迁移和少样本适配。本站读法:先看它没有把 video prediction 当辅助任务,而是把 video 和 action 都放进 policy 输出。

VLA 缺的不是语言,而是动作后果

很多 VLA 论文强调语义泛化:模型见过“杯子”“桌子”“把 A 放到 B”这类语言和视觉概念,所以能把指令映射到动作。但机器人操作的困难不只在语义。一个策略需要知道“夹爪往左 3 厘米后,物体是否会被碰倒”“拉抽屉时把手和手腕轨迹会怎样变化”“从这个角度抓会不会滑落”。

这类知识更像物理动态,而不是语言知识。DreamZero 的批评点在这里:如果训练目标只让模型拟合动作标签,它可以在训练集附近学到动作模板,却不一定学到动作如何改变世界。相反,如果模型必须预测未来视频,它就要关心物体、手、相机、接触和遮挡的连续变化。

可以把 VLA 和 WAM 的目标粗略写成:

VLA:at=fθ(ot,st,l)\text{VLA}: \quad a_t = f_\theta(o_t, s_t, l)

WAM:(vt+1:t+H,at:t+K)=gθ(ot,st,l)\text{WAM}: \quad (v_{t+1:t+H}, a_{t:t+K}) = g_\theta(o_{\le t}, s_{\le t}, l)

其中第一行表示单纯从当前观测回归动作,第二行表示同时预测未来世界和一段动作。这里的差异不是公式复杂度,而是训练时模型有没有被要求解释“动作之后会看到什么”。DreamZero 的整个贡献都围绕第二行展开。

Joint video and action prediction

图源:World Action Models are Zero-shot Policies,Figure 2。原图表达模型同时生成未来视频和动作。本站读法:观察动作轨迹和预测画面是否互相支持,尤其是未见任务中模型是否能生成合理的动作后果。

架构:把 Wan2.1 视频扩散模型改成动作模型

DreamZero 使用 Wan2.1-I2V-14B-480P 作为 backbone。这个选择很重要:论文并没有从头训练一个机器人 transformer,而是复用大视频模型已经学到的视觉动态、物体外观、相机运动和场景变化先验。

为了让视频模型理解机器人,DreamZero 只增加几类机器人相关模块:

  • state encoder:把本体状态编码进模型。
  • action encoder:训练时把带噪动作 latent 放入联合去噪。
  • action decoder:把去噪后的 action latent 解码为机器人 action chunk。
  • 多视角输入拼接:把多摄像头画面拼成一个视频帧,避免重写 backbone。

这也解释了 DreamZero 和 Wan、Diffusion Forcing 的关系。Wan 提供的是强视频 latent 与 DiT 动态先验;DreamZero 把这个视频底座接上状态、动作和闭环真实观测;Diffusion Forcing 则从训练范式上提醒我们,未来 token 的不确定性不应该全一样。三者合起来看,路线不是“视频越真越像世界模型”,而是:视频底座要有动作接口,采样/训练要表达不确定性,真实执行时还要用观测回写打断错误想象。

DreamZero architecture

图源:World Action Models are Zero-shot Policies,Figure 4。原图表达 DreamZero 架构:视觉上下文、语言和本体状态进入自回归 DiT,训练时联合去噪视频与动作 latent,推理时用真实观测刷新上下文。本站读法:把这张图看成“视频扩散模型如何多出动作接口”,而不是普通 VLA 架构图。

训练样本被切成 chunk。每个 chunk 内,模型看到历史条件帧和机器人状态,然后对未来视频 latent 与动作 latent 做 flow matching。一个简化的训练目标可以写成:

L=Et,ϵ[λvuvu^v,θ22+λauau^a,θ22]\mathcal{L} = \mathbb{E}_{t, \epsilon} \left[ \lambda_v \lVert u_v - \hat{u}_{v,\theta} \rVert_2^2 + \lambda_a \lVert u_a - \hat{u}_{a,\theta} \rVert_2^2 \right]

其中 uvu_vuau_a 分别表示视频 latent 与动作 latent 的目标速度场,u^v,θ\hat{u}_{v,\theta}u^a,θ\hat{u}_{a,\theta} 是模型预测,λv,λa\lambda_v,\lambda_a 是两类损失的权重。这里要读懂的是“同一个模型同时学两个去噪方向”:视频去噪要求它理解未来画面,动作去噪要求它把这种未来变化落到机器人控制上。

为什么要自回归,而不是一次性生成整段视频

离线视频生成可以一次性生成几十帧,但机器人闭环控制不能这样。真实执行时,机器人每走一步都会得到新观测;如果模型继续相信自己上一轮生成的未来画面,误差会越来越大。DreamZero 因此采用 autoregressive WAM:生成一个 action chunk 后,系统等待真实观测回来,再把真实观测写回上下文。

这有两个直接好处。

第一,KV cache 能复用历史条件帧,让大模型推理不必每次从头算。第二,真实观测会替换模型想象的画面,把错误从闭环中截断。也就是说,DreamZero 不是让机器人活在生成视频里,而是每个控制周期都用真实世界纠偏。

DreamZero attention strategy

图源:World Action Models are Zero-shot Policies,Figure 14。原图表达训练和推理时的注意力策略。本站读法:重点看推理侧,条件帧 KV 被缓存,生成的 future frame 不是长期信念,真实观测会回写到上下文中。

实时化:WAM 的难点是 14B 视频模型要跑闭环

DreamZero 最容易被低估的部分是系统实现。一个 14B 视频扩散模型天然不适合机器人控制:朴素生成一个 action chunk 需要数秒,而真实机器人需要接近 5-10Hz 的响应频率。论文把这个问题称作 reactivity gap

它的优化分三层:

层级 做法 解决的问题
系统层 asynchronous execution、CFG parallelism、DiT caching 让感知、生成和执行流水化,减少重复计算
实现层 torch.compile、CUDA Graphs、kernel / scheduler 优化、NVFP4 量化 降低每步 DiT 推理成本
模型层 DreamZero-Flash、少步去噪、decoupled noise schedules 减少扩散步数,同时保住动作质量

这张加速表的读法不是“用了很多工程技巧”,而是看瓶颈迁移:单靠缓存、编译和量化只能把延迟压下一部分;真正让 WAM 进入闭环的是少步化模型本身。

DreamZero-Flash:为什么动作和视频要用不同噪声日程

少步扩散容易出现一个问题:视频生成还没有充分去噪,动作已经必须可执行。DreamZero-Flash 的做法是 decoupled noise schedules:视频 latent 可以保持更高噪声,因为它主要提供未来动态上下文;动作 latent 则需要更快靠近 clean action。

Decoupled noise schedules

图源:World Action Models are Zero-shot Policies,Figure 5。原图表达 coupled 和 decoupled noise schedule 的区别。本站读法:动作不是等视频完全生成好再预测,而是在有噪视觉上下文里尽快得到可执行 chunk。

这背后的直觉很实用:机器人不需要每个控制周期都生成一段电影级未来视频,它需要从粗糙但方向正确的未来动态里抽出下一段动作。DreamZero-Flash 让模型在 noisy visual context 下学习 clean actions,所以 1-step 推理还能保持任务进展。

数据:为什么 diverse data 对 WAM 特别重要

DreamZero 使用两类机器人数据:AgiBot G1 的约 500 小时 teleoperation data,以及 DROID-Franka 这类公开异质机器人数据。它强调的不是“同一个任务做很多遍”,而是 homes、restaurants、supermarkets、coffee shops、offices 等不同环境里的多样操作。

对 VLA 来说,多样但非重复的数据可能带来动作分布噪声;对 WAM 来说,这些数据还有一个额外价值:即使动作标签不完美,未来视频仍然告诉模型世界怎样变化。因此 WAM 更可能从 heterogeneous data 里学习可迁移动态。

论文的消融也支持这个方向:diverse data、14B model scale、自回归闭环结构都不是装饰。尤其是模型规模,视频动态先验和机器人动作接口都依赖大 backbone 的表达能力;如果模型太小,联合预测很容易退化成普通动作回归。

实验应该怎样读

DreamZero 的实验不应只看平均分,而要按四个问题读。

第一,seen tasks 的新环境和新物体能不能泛化。论文报告 AgiBot G1 上 DreamZero 平均 task progress 明显高于 pretrained VLA baseline。这个结果说明 WAM 从多样数据中学到的不是单个环境模板。

Seen task evaluation

图源:World Action Models are Zero-shot Policies,Figure 8。原图表达 seen tasks 在新环境和新物体设置下的表现。本站读法:看 DreamZero 是否在每类任务上都提升,而不是只靠某个容易任务拉高平均值。

第二,训练中没出现过的 tasks 能不能有非平凡进展。论文覆盖 untying shoelaces、ironing、painting with a brush、shaking hands 等任务,并报告 DreamZero 在 AgiBot G1 和 DROID-Franka 上都高于多个 VLA baseline。

Zero-shot generalization

图源:World Action Models are Zero-shot Policies,Figure 9。原图表达 unseen tasks 的 zero-shot generalization。本站读法:这组图最接近论文标题中的 zero-shot policy,但仍要记住评测任务来自作者设定的机器人平台和任务集。

第三,post-training 会不会破坏开放泛化。论文在三个下游任务上继续训练,结果显示任务表现提高,同时保留一定环境泛化。这个结论比“后训练涨分”更重要,因为很多机器人 policy 一微调就会过拟合实验室环境。

Posttraining results

图源:World Action Models are Zero-shot Policies,Figure 10。原图表达 post-training 后的任务结果。本站读法:关注后训练是否把模型变成窄任务专家,还是仍能保留 WAM 的泛化优势。

第四,cross-embodiment transfer 是否真的来自视频动态。论文用 robot-to-robot 和 human-to-robot 的 video-only demonstration 改善未见任务表现。这个实验很有价值,因为它绕开了动作空间不一致的问题:视频可以跨具身共享,但动作标签不能直接共享。

Cross-embodiment transfer

图源:World Action Models are Zero-shot Policies,Figure 11。原图表达跨具身迁移,包括机器人到机器人和人到机器人。本站读法:把它看成 WAM 路线最有想象力的证据,前提是任务和场景仍在论文覆盖范围内。

边界:WAM 不是万能机器人大脑

DreamZero 的强主张很吸引人,但边界也要写清楚。

第一,它仍然依赖真实机器人数据。视频 backbone 提供动态先验,但动作接口、控制频率、末端执行器习惯、状态编码都要靠机器人数据对齐。第二,它的 closed-loop control 依赖很强的系统工程;没有低延迟推理,WAM 只能是离线想象器。第三,视频预测失败会直接诱导错误动作,因为动作和未来画面在模型里是耦合的。

Failure case

图源:World Action Models are Zero-shot Policies,Figure 16。原图表达 generated video 与 executed action 的失败配对。本站读法:当未来视频计划错了,动作也会沿着错误计划执行,这正是 WAM 比普通 VLA 更强也更危险的地方。

所以更准确的结论是:DreamZero 证明了“视频世界模型 + 动作联合建模 + 闭环真实观测回写”可以成为一条可工作的机器人 policy 路线;它还没有证明一个 WAM 可以替代所有 VLA、规划器和低层控制器。

证据链快照

论文主张 主要证据 读数边界
WAM 联合预测未来视频和动作 Figure 1/2/4、video-action diffusion objective 视频-动作一致不等于安全可执行
预训练视频模型可作为机器人动态底座 Wan2.1 backbone、机器人状态/action 模块 动作接口仍依赖真实机器人数据对齐
自回归 + KV refresh 支持闭环 attention strategy、真实观测刷新 实时性高度依赖系统优化和硬件
DreamZero-Flash 降低推理成本 decoupled noise schedule、flash 版本实验 少步化可能影响预测质量,需要任务评测
zero-shot / cross-embodiment 有启发 seen / zero-shot / cross-embodiment 图表 不等于未见硬件或开放世界任务都可靠

阅读结论

DreamZero 最重要的知识点是“动作和未来画面要共同去噪”。普通 VLA 可以把动作当标签回归,WAM 则要求动作必须解释未来世界怎样变化;这让它更接近 action-conditioned world model。真正让论文成立的不是一个大标题,而是四个条件同时出现:Wan2.1 这类视频动态先验,多样真实机器人数据,video-action joint diffusion objective,以及推理时用真实观测回写的闭环系统。读完这篇后,应该能区分三件事:VLM 看到什么,VLA 现在做什么,WAM 做了以后世界会怎样变。

外部精读

相关阅读与下一步

  • Title: 论文专题讲解:DreamZero:世界动作模型为什么可以做零样本策略
  • Author: Charles
  • Created at : 2025-09-25 09:00:00
  • Updated at : 2025-09-25 09:00:00
  • Link: https://charles2530.github.io/2025/09/25/ai-files-paper-deep-dives-embodied-ai-dreamzero/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments