论文专题讲解:Video Prediction Policy:预测视觉表征训练机器人策略

论文专题讲解:Video Prediction Policy:预测视觉表征训练机器人策略

Charles Lv8
读法定位

这页先按“论文证据节点”读:先问它解决哪一个瓶颈,再看核心图表、实验 setting 和不能外推的边界。背景概念先回 论文专题讲解 和 具身智能。
前置:不必先读完所有相关论文,但要知道本篇的输入、训练/推理路径和评测口径分别对应什么。
主线关系:读完后把结论回填到「具身智能」路线里,判断它改变的是机制、成本、数据配方、评测口径,还是仍停留在前沿假设。

论文信息
  • 论文:Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
  • 链接:arXiv:2412.14803
  • 代码:roboterax/video-prediction-policy
  • 关键词:predictive visual representations、text-guided video prediction、inverse dynamics、CALVIN、MetaWorld、real-world robots

VPP 的核心观点很漂亮:很多视觉策略只编码当前图像,而视频扩散模型内部包含“未来会怎样”的预测表征。把这些 predictive visual representations 拿来当 policy 的视觉条件,可以让机器人从视频模型的动态先验中受益。

证据等级与外推边界

VPP 的证据结构比较清楚:核心 claim 由 CALVIN / MetaWorld benchmark、真实机器人实验和表征可视化共同支撑;效率 claim 主要来自“single forward step 取中间表征”,而不是完整系统吞吐表。因此它适合作为“预测表征能帮 policy”的证据,不适合直接当成“完整视频 rollout world model 已经足够便宜”的证据。

flowchart LR
    A["Text-guided video prediction"] --> B["Intermediate predictive representation"]
    B --> C["Inverse dynamics policy"]
    C --> D["CALVIN / MetaWorld"]
    C --> E["Real robot tasks"]
    B --> F["One-step encoder cost"]
    D --> G["Evidence: benchmark"]
    E --> H["Evidence: closed-loop"]
    F --> I["Evidence: efficiency direction"]
论文结论 证据来源 证据等级 可外推到世界模型高效训练 不能直接外推
预测视觉表征比静态表征更适合策略 CALVIN、MetaWorld、真实机器人结果 Benchmark + Closed-loop 世界模型中间 latent 可以作为 policy state,而不必每次生成完整未来视频 不能证明所有 video latent 都天然对动作有用
one-step TVP 表征已经包含运动趋势 one-step prediction 可视化和 policy 性能 Qualitative + Benchmark 训练时可把“未来感”压进状态表示,降低完整视频生成成本 不能把模糊 one-step 图像当作可靠物理仿真
互联网人类/机器人操作视频能补动态先验 数据规模、采样比例和下游结果 Dataset evidence + Benchmark 世界模型数据引擎应混合人类视频、机器人视频和目标任务轨迹 不能说明无动作标注视频足以学习动作因果性
inverse dynamics 能把预测表征接到动作 diffusion action model 和机器人实验 Benchmark + Closed-loop 可借鉴“视频预测表征 + 动作解码器”的模块分工 不能替代 action-conditioned rollout 和反事实动作评测
真实机器人验证覆盖多平台任务 Panda、xArm + XHand 任务集合 Closed-loop signal 论文不是纯仿真结果,适合作为具身表征迁移参考 不能外推到开放家庭长时任务和安全拒绝执行

对本站主线,VPP 最值得吸收的是:世界模型训练不一定每一步都生成清晰视频;有时只需要一个含未来动态的 latent state,再由 policy 或 action head 使用它。它最需要补的证据是动作反事实:同一历史下改变候选动作时,中间表征是否足够区分未来后果。

论文位置

GR-2 是“视频预训练 + 机器人轨迹微调”;DreamZero 是“joint video-action prediction”;VPP 介于两者之间:它先训练文本引导的视频预测模型,然后用视频模型的中间表征训练逆动力学 policy。

VPP overview

Figure source: Video Prediction Policy, Figure 1. 原论文图意:视频 diffusion model 内部表征同时包含当前信息和未来预测信息;VPP 基于这些表征在多个 benchmark 上提升机器人策略表现。

这张图怎么读

输入输出:输入是 text-guided video prediction 的中间表征和机器人观测,输出是 policy 动作。
效率机制:复用预测表征而非完整生成视频,降低把动态先验接入策略的成本。
对主线意义:它说明“未来 latent”可以直接服务 VLA policy。
不能证明什么:预测表征提升不能证明显式世界模型或反事实动作规划已成立。

两阶段训练

论文流程很清晰:

1
2
3
4
5
6
7
8
9
Stage 1: train Text-guided Video Prediction (TVP)
pre-trained video foundation model
+ internet human/robot manipulation data
+ CALVIN / MetaWorld / real robot data

Stage 2: train inverse dynamics policy
TVP intermediate predictive representation
-> diffusion action model
-> robot actions

VPP training pipeline

Figure source: Video Prediction Policy, Figure 3. 原论文图意:VPP 先从预训练视频 foundation model 出发训练 text-guided video prediction model,再基于 TVP 内部预测表征学习机器人动作。

Stage 1:Text-guided Video Prediction

VPP 的第一阶段不是直接训练机器人策略,而是把预训练视频扩散模型调成一个文本条件未来预测模型。给定当前/历史视频帧 oto_{\le t} 和语言 ll,TVP 学习预测未来帧:

pθ(ot+1:t+Hot,l)p_\theta(o_{t+1:t+H} \mid o_{\le t}, l)

在扩散模型里,它实际学习的是去噪目标。若 z0\mathbf{z}_0 是未来视频 latent,zτ\mathbf{z}_\tau 是加噪后的 latent,模型学习预测噪声或速度:

LTVP=Eτ,ϵ[ϵθ(zτ,τ,ot,l)ϵ22]\mathcal{L}_{\mathrm{TVP}} = \mathbb{E}_{\tau,\epsilon} \left[ \left\| \epsilon_\theta(\mathbf{z}_\tau, \tau, o_{\le t}, l) - \epsilon \right\|_2^2 \right]

这里最重要的是条件:模型不只是做通用视频生成,而是在操作视频和机器人数据上学习“给定任务语言和当前观测,未来该往哪个方向演化”。这就是 predictive visual representation 的来源。

Stage 2:Inverse Dynamics Policy

第二阶段把 TVP 当成 future-aware encoder。VPP 从视频扩散模型中取中间表征 hpred\mathbf{h}_{\mathrm{pred}},再训练一个动作扩散/DiT 策略:

πϕ(at:t+Kot,l,hpred)\pi_\phi(a_{t:t+K}\mid o_{\le t}, l, \mathbf{h}_{\mathrm{pred}})

这可以看成 implicit inverse dynamics:TVP 内部表征暗示“未来视觉会怎样变”,policy 学“要让未来这样变,现在该怎么动”。注意它不是显式规划器,没有枚举候选动作并 rollout;它把未来预测压缩进视觉表征,再用动作模型直接解码。

为什么用中间表征,而不是完整生成视频

论文的关键工程选择是:VPP 把视频 diffusion model 主要当作 vision encoder,而不是完整 denoiser。它只做 single forward step,得到并不清晰但含有未来运动趋势的中间表征。

One-step prediction

Figure source: Video Prediction Policy, Figure 5. 原论文图意:比较 ground-truth video、完整 denoised video 和 one-step forward predictions;one-step 纹理不清晰,但已经包含物理演化信息。

这个选择非常具身:机器人 policy 不需要每次生成好看的未来视频,它需要低延迟、对动作有用的表示。中间表征比完整视频便宜,也比普通静态视觉 encoder 更有动态信息。

Figure 5 怎么读

这张图要反着读:one-step prediction 画面模糊,正是它的工程价值。若策略每个控制周期都要完整 denoise 出高清视频,延迟会压垮 closed-loop 控制;VPP 只取 single forward step 的内部表示,让纹理不完整但运动方向、物体接触趋势和目标变化已经进入 latent。它支撑的是“预测表征可用”,不是“单步图像可当真实模拟器”。

数据与训练细节

VPP 的 TVP 训练数据包括:

Data source Scale / role
Something-Something-V2 human manipulation 193,690 human manipulation trajectories
Internet robotic manipulation datasets 179,074 high-quality trajectories
CALVIN ABC downstream long-horizon robot data
MetaWorld 50 tasks, oracle trajectories
Real-world robot datasets Panda arm and xArm + XHand tasks

论文记录 TVP 训练约 two days on eight NVIDIA A100 GPUs。动作策略阶段再用 TVP 的中间预测表征训练 diffusion action model。

英文原表中 Table 9 给出 dataset scales and sample ratios;这里不逐项全文搬表,但保留一个工程重点:VPP 不是把所有数据均匀混合,而是根据数据规模和质量设置采样概率。

几个训练细节对复用很关键:

Detail Why it matters
Stable Video Diffusion initialization 让 TVP 从已有视频动态先验出发,而不是从机器人小数据冷启动
CLIP text features 语言条件进入视频预测,避免只学无条件未来
Human manipulation + robot video mixture 人类视频补丰富动态,机器人视频补相机和任务分布
Single forward representation 控制侧只取中间表征,不承担完整视频生成延迟
Diffusion inverse dynamics policy 用生成式动作头处理多模态动作分布

这也解释了为什么 VPP 和 GR-2 相似但不一样:GR-2 同时生成未来视频和动作轨迹,VPP 则更激进地把视频生成压成“取中间表示”,让部署时不必真的生成完整未来。

实验结果

VPP 在 CALVIN 和 MetaWorld 上验证了 predictive visual representations 的价值。

Benchmark Setup Main claim
CALVIN ABC→D, five chained tasks VPP improves average task completion length
MetaWorld 50 tasks with language-conditioned policy VPP improves average success rate over strong baselines
Real-world Panda 30+ tasks, 6 skills, about 2000 trajectories predictive representations transfer to real robot
xArm + XHand 100+ tasks, 13 skills, about 4000 trajectories dexterous manipulation and tool-use settings

Table 1 from the paper can be redrawn as follows, keeping the original English fields:

Category Method Annotated Data 1 2 3 4 5 Avg. Len ↑
Direct Action Learning Method RT-1 100%ABC 0.533 0.222 0.094 0.038 0.013 0.90
Direct Action Learning Method Diffusion Policy 100%ABC 0.402 0.123 0.026 0.008 0.00 0.56
Direct Action Learning Method Robo-Flamingo 100%ABC 0.824 0.619 0.466 0.331 0.235 2.47
Future Prediction Related Method Uni-Pi 100%ABC 0.560 0.160 0.080 0.080 0.040 0.92
Future Prediction Related Method MDT 100%ABC 0.631 0.429 0.247 0.151 0.091 1.55
Future Prediction Related Method Susie 100%ABC 0.870 0.690 0.490 0.380 0.260 2.69
Future Prediction Related Method GR-1 100%ABC 0.854 0.712 0.596 0.497 0.401 3.06
3D Method 3D Diffuser Actor 100%ABC 0.938 0.803 0.662 0.533 0.412 3.35
Ours VPP (ours) 100%ABC 0.957 0.912 0.863 0.810 0.750 4.29
Data Efficiency MDT 10%ABC 0.408 0.131 0.034 0.008 0.001 0.58
Data Efficiency GR-1 10%ABC 0.672 0.371 0.198 0.108 0.069 1.41
Data Efficiency VPP (ours) 10%ABC 0.878 0.746 0.632 0.540 0.453 3.25

表源:Video Prediction Policy,Table 1。原表含义:CALVIN ABC→D zero-shot long-horizon evaluation,15 表示连续完成第 1 到第 5 个任务的比例,Avg. Len 是平均完成链长。最值得注意的是,VPP 不用 depth / point cloud,仍把平均链长从 3D Diffuser Actor 的 3.35 推到 4.29;只用 10%ABC 标注数据时也达到 3.25

Table 1 怎么读

CALVIN 不是单任务成功率,而是连续 5 个语言任务的链式完成。15 的数字越往右越难,因为前一步失败会阻断后续任务。VPP 最突出的不是第一个任务 0.957,而是第 5 个任务仍有 0.750,说明预测表征对状态保持和长链执行有帮助。10%ABC 设置更关键:只用十分之一标注数据时,VPP 的 Avg. Len=3.25 接近强 3D baseline 的完整数据表现,说明动态先验确实缓解了机器人标注稀缺。

VPP real robots

Figure source: Video Prediction Policy, Figure 7. 原论文图意:展示 Panda arm 和 xArm + 12-DoF XHand 两个真实硬件平台及任务可视化。

真实机器人结果的读法要分平台。Panda arm 覆盖 30+ tasks、6 skills、约 2000 trajectories,主要验证普通机械臂桌面操作;xArm + XHand 覆盖 100+ tasks、13 skills、约 4000 trajectories,强调灵巧手、工具和更复杂接触。论文摘要报告复杂真实灵巧操作成功率相对提升约 31.6%,这说明 predictive representation 不只在仿真里有效,但仍属于受控任务集合,而不是开放家庭环境。

论文还可视化了 predictive representations:

VPP predictive representations

Figure source: Video Prediction Policy, Figure 12. 原论文图意:绿色是真实未来,红色是预测未来,蓝色是 predictive representations 的可视化;即便细节不精确,运动趋势已经出现。

Figure 12 怎么读

这张图是 VPP 的机制诊断。绿色真实未来、红色预测未来和蓝色表征可视化不是为了证明图像生成很漂亮,而是说明中间 representation 已经朝未来物体运动、手部接触或目标状态变化聚焦。如果蓝色区域只响应当前静态纹理,它就和普通视觉 encoder 没太大区别;如果它开始响应即将发生变化的区域,才说明 TVP 给 policy 提供了未来感。

Ablation:预测表征到底贡献在哪里

VPP 的实验可以压成三个对照问题:

Question Evidence Takeaway
只用静态视觉 encoder 够不够 CALVIN / MetaWorld 与 RT-1、Diffusion Policy、Robo-Flamingo 等对比 静态表征能识别物体,但对长链状态变化和动作趋势不够
显式未来预测是否有用 Uni-Pi、Susie、GR-1 等 future-prediction 方法对照 未来预测类方法整体更强,VPP 进一步把中间表征直接接入 policy
需要完整生成视频吗 one-step representation 与完整 denoising 可视化 policy 需要低延迟 future-aware latent,不需要每步生成清晰视频

最重要的消融结论是:VPP 的收益来自“视频预测模型的内部表示”,不是来自额外深度、点云或真实 3D 几何。它说明 future-aware latent 可以补足静态视觉,但也留下一个问题:这个 latent 是否能处理反事实动作,例如同一状态下往左推和往右推会导致不同未来?原论文主要证明表征有用,还没有完全证明它是 action-conditioned simulator。

训练细节要点

Detail VPP choice Why it matters
Video backbone Stable Video Diffusion + CLIP text features 从视频 foundation model 继承动态先验
TVP objective text-guided video prediction 让模型按语言预测操作未来
Policy input intermediate predictive representation 避免完整视频生成成本
Inference single forward step as encoder 低延迟,适合控制
Action model diffusion inverse dynamics 从预测表征生成动作
Training compute two days on 8 A100 for TVP 说明路线相对可复现
Real robots Panda 30+ tasks / xArm + XHand 100+ tasks 验证不是只在仿真有效

和 GR-2、DreamZero 的区别

Dimension GR-2 VPP DreamZero
Video role pre-training and future video prediction predictive representation encoder joint video-action generation
Action learning robot trajectory fine-tuning inverse dynamics from TVP features action latent co-denoising
Deployment trajectory + WBC policy from visual representation WAM as closed-loop policy
Main insight web video helps robot manipulation future-aware visual features help policy world-action model can be zero-shot policy

VPP 的独特位置在于:它不要求每次部署都生成高质量未来视频,也不把视频和动作完全合并到一个大生成器里,而是把视频模型内部的“未来感”抽出来给策略用。

局限

VPP 的表征依赖 TVP 的预测质量。若 TVP 在新场景里预测错误动态,policy 也会被误导。另外,它的真实机器人数据仍以可控平台和任务集合为主,开放家庭长时任务、无效指令拒绝、跨房间记忆等问题还需要其他机制。

本站判断

VPP 的方法证据是用视频预测表征服务策略,而不是把未来帧当最终产品;实验要看 one-step prediction、real robot 和 predictive representation 消融。它支持“动态预测能改进控制表征”,但长期接触、恢复和多任务泛化仍需真机闭环。

参考链接

  1. arXiv:2412.14803
  2. GitHub: roboterax/video-prediction-policy
  3. ar5iv HTML and figures
下一站
  • 回到论文总入口:论文专题讲解,用同一套 claim / 图表 / 边界口径横向比较。
  • 把本篇结论接回主题:具身智能。
  • 按导航顺序继续:SpatialVLA:3D 表征接入 VLA
  • Title: 论文专题讲解:Video Prediction Policy:预测视觉表征训练机器人策略
  • Author: Charles
  • Created at : 2025-10-11 09:00:00
  • Updated at : 2025-10-11 09:00:00
  • Link: https://charles2530.github.io/2025/10/11/ai-files-paper-deep-dives-embodied-ai-video-prediction-policy/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments