世界模型：动作条件视频世界模型端到端训练案例

这页用一个具体案例把全站主线串起来：训练一个面向机器人桌面操作的动作条件视频世界模型。目标不是追求最完整的工业方案，而是给读者一条可复盘的技术链路：从数据、视觉状态、动作接口，到训练系统、rollout 推理、量化和闭环评测。

读法提醒

这是一页“整合案例”，不是新概念百科。遇到具体术语时，可以回到世界模型高效训练技术路线图、VLM/VLA 与世界模型高效训练接口、VLA 专题路线图、训练、推理和量化补背景。

任务设定

假设我们要训练一个模型，用于桌面机器人任务：

1
2
3

输入：最近 N 帧 RGB-D / wrist camera / proprioception / language goal / action history
输出：未来 H 步视频 latent、风险信号、可恢复性标签、可选动作候选
用途：给 VLA policy、planner 或数据引擎判断“如果执行这个动作 chunk，接下来会怎样”

这个模型不是普通视频生成器。它必须满足四个条件：

动作敏感：同一历史下换动作，未来应合理分叉。
长时一致：物体身份、位置、遮挡和接触状态不能几秒后重置。
可被消费：输出要服务 policy、planner、risk module 或数据引擎。
训练可承受：视频 token、真实交互、GPU 显存和验证预算不能无限增长。

总体链路

flowchart LR
    A["真实/仿真轨迹日志"] --> B["数据清洗与事件标注"]
    B --> C["视觉 tokenizer / latent state"]
    B --> D["动作 token / action chunk"]
    C --> E["动作条件世界模型训练"]
    D --> E
    E --> F["causal rollout / KV cache / few-step decoding"]
    F --> G["闭环评测与失败回放"]
    G --> H["near-miss / hard negatives / 数据回流"]
    H --> B

这条链路要同时优化七类成本：真实交互成本、视觉 token 成本、动作条件成本、长序列训练成本、数值和显存成本、rollout 推理成本、闭环验证成本。

1. 数据 schema：先保证动作和后果能对齐

数据不要只存视频和动作值。一个可训练的动作条件世界模型，至少需要：

字段	例子	为什么重要
观测	multi-view RGB、depth、wrist camera、proprioception	建立当前状态和遮挡记忆
动作	end-effector delta、gripper、base velocity、action chunk	让未来预测对动作条件敏感
任务	language goal、subtask、object id	判断未来是否朝目标推进
事件	grasped、dropped、collision、contact、done	给风险和恢复建监督
失败标签	near-miss、recoverable failure、irrecoverable failure	数据引擎优先回流高价值片段
系统日志	latency、controller reject、human takeover	区分模型错、控制错和系统错

如果动作时间戳和视频帧没有对齐，模型会学到“动作大概和未来有关”，但很难学到准确因果。对高效训练来说，对齐质量比数据量更先决定上限。

2. 数据分桶：不要随机采样全部视频

世界模型训练最容易浪费在低信息片段上。建议按任务价值分桶：

桶	采样策略	训练价值
成功稳定轨迹	保留主分布，但不过采	让模型知道正常动态
成功但过程不稳	提高采样权重	学会边界状态和恢复空间
near-miss	高权重采样	学风险、接触和动作敏感性
可恢复失败	高权重采样	学恢复策略和错误传播起点
不可恢复失败	门禁采样	学安全边界和终止信号
人工接管	单独标注	学“不该自主执行”的区域

这一步直接对应世界模型数据引擎：高效训练不是“更多数据”，而是“当前模型最缺的高价值数据”。

3. 视觉表示：先压 token，再谈大模型

原始视频 token 太贵。一个桌面操作任务如果用 4 个相机、16 帧、每帧几百个 patch，很快会把 attention、显存和通信压垮。更现实的路线是：

用视觉 encoder / video tokenizer 得到 latent。
用连接器或 resampler 只保留任务相关 token。
对关键对象、接触区域、gripper 附近区域提高保真。
把长期状态放进结构化 memory，而不是无限加帧。

视觉信息	保留策略
目标物、夹爪、接触点	高优先级 token 或 crop latent
背景、桌面纹理	低频压缩或丢弃
遮挡前物体位置	进入工作记忆
多相机几何关系	通过 calibration / pose token 显式给出

判断视觉 tokenizer 是否合格，不只看 VQA，而要看动作相关能力：抓取点、接触边界、左右/前后、遮挡后的物体持久性，以及同一动作在不同相机下是否可对齐。

4. 动作接口：动作太细和太粗都会浪费

动作接口决定训练序列长度和可控性。常见选择：

动作形式	适用场景	成本与风险
单步连续动作	高频控制、低层反馈强	序列长，模型容易抖
action chunk	桌面抓取、开关抽屉、放置	降低决策频率，但错误会持续多个 step
离散 action token	复用 Transformer 训练框架	有量化误差，需要控制器平滑
latent skill	长时程任务和规划	难解释，安全边界更难写

对动作条件世界模型，一个实用起点是：用 action chunk 做主条件，用低层控制器保证可执行性，用真实执行反馈刷新状态。这样既能减少 token 数，又不至于让动作语义太粗。

5. 训练目标：不要只预测像素

如果训练目标只要求未来视频好看，模型很容易学到平均未来。更稳的目标组合是：

$\mathcal{L} = \lambda_v \mathcal{L}_{\text{video-latent}} + \lambda_a \mathcal{L}_{\text{action-sensitivity}} + \lambda_e \mathcal{L}_{\text{event}} + \lambda_r \mathcal{L}_{\text{risk}} + \lambda_c \mathcal{L}_{\text{consistency}}$

目标	作用
video latent prediction	学未来观测和时序动态
action contrast / sensitivity	强迫不同动作产生可区分未来
event prediction	预测 grasp、drop、collision、done 等关键事件
risk / uncertainty	给 planner 和安全层使用
temporal consistency	约束对象身份、位置和状态跨帧保持

最关键的是 action sensitivity。可以构造同一历史下的动作对照：真实动作、扰动动作、保守动作、专家修正动作。模型不仅要预测未来，还要让未来差异能解释动作差异。

6. 长序列训练：把 mask、packing 和通信提前设计好

桌面操作看似短，但真实训练会很长：多相机、多帧、语言、动作、事件、memory token 和未来 latent 都在同一条序列里。高效训练要先设计序列结构：

组件	典型可见性
历史观测 token	可被未来预测读取
未来视频 latent	训练时可用 denoising / masked prediction，推理时必须 causal
action chunk	可被对应未来窗口读取
language / subtask	全局可见
memory token	按任务阶段读取
不同样本 packed 在一起	必须用 block mask 隔离

如果使用 patch-and-pack、block-causal mask 或 variable-length trajectory，attention 负载会很不均衡。这时 MagiAttention 这类方法的价值就出现了：它不是“再快一点 attention”，而是解决异构 mask 下的负载均衡和通信冗余。

7. 数值与显存：低比特要保护敏感模块

世界模型训练中，低比特策略不能照搬纯 LLM：

模块	精度建议	原因
大型线性层 / MLP	BF16 -> FP8 / FP4 QAT 逐步尝试	主要省权重、激活和带宽
attention 主路径	FP8 或专项 QAT 后再低比特	softmax、重算和长序列误差会放大
vision connector / action head	保守精度	坐标、抓取点和动作平滑对误差敏感
risk / safety head	保守精度	误差可能导致风险低估
KV cache rollout	可按任务桶量化	长 horizon 时显存收益明显，但要验一致性

低比特验收不能只看 loss。至少要看：动作敏感性、长时一致性、事件预测、风险校准、闭环成功率和失败恢复率。图像看起来差不多，不代表世界模型可用。

8. Rollout 推理：从离线生成变成可交互系统

训练时可以看完整片段，部署时不行。部署需要：

causal attention，不能读取未来。
KV cache，降低连续 rollout 成本。
action chunk streaming，执行一段动作后刷新真实观测。
few-step diffusion / consistency / DMD 蒸馏，降低每个未来窗口的采样步数。
分桶调度，让短闭环任务不被长视频 rollout 拖住。

端到端时延可以粗略拆成：

$T_{\text{loop}} = T_{\text{observe}} + T_{\text{encode}} + T_{\text{rollout}} + T_{\text{policy/risk}} + T_{\text{control}}$

世界模型如果让 $T_{\text{rollout}}$ 太大，即使预测准，也进不了实时闭环。因此 rollout 效率要和推理成本建模一起看。

9. 评测：不要用好看视频代替闭环证据

最小评测集应覆盖：

指标	问题
action sensitivity	换动作后未来是否合理分叉
temporal consistency	物体、空间和状态是否跨帧保持
event accuracy	抓取、掉落、碰撞、完成是否预测正确
risk calibration	高风险动作是否被低估
recovery usefulness	预测是否帮助 policy 修正失败
cost per successful rollout	每个成功 rollout 消耗多少 GPU / 真实交互

其中 cost per successful rollout 很重要。一个模型如果让每次预测更贵，却没有提升闭环成功率，就不算高效训练路线的成功。

10. 一个可执行里程碑

阶段	目标	验收
M0 数据对齐	视频、动作、事件、任务标签时间对齐	随机抽样回放能解释动作后果
M1 视觉状态	video latent 支持物体持久性和接触区域	遮挡、抓取点、左右/前后专项评测
M2 动作条件	同历史不同动作产生不同未来	action sensitivity 显著高于无动作 baseline
M3 长序列训练	支持 packed trajectory 和 block-causal mask	step time、显存、通信无异常拖尾
M4 低成本 rollout	causal + KV + 少步生成	延迟进入闭环预算
M5 数据回流	near-miss 和失败样本自动成桶	回流后目标 bucket 成功率提升

这条路线的关键不在于每一步都用最先进模型，而在于每一步都有可验证的效率贡献。

常见反例

看起来合理的做法	为什么可能错
先把视频模型做得很大	如果动作条件弱，只会得到更贵的平均未来
全部视频帧都进上下文	长序列成本爆炸，且大量背景 token 没有决策价值
只看 FVD / VBench	视频质量不能证明对 policy 有用
低比特全模型统一压	视觉连接器、动作头和风险头可能被误差放大
合成 rollout 直接回流	容易形成模型自我强化的数据污染

一个好用的动作条件视频世界模型，不是“生成最漂亮的未来”，而是用可承受成本预测出足够影响决策的未来差异。

Charles's Castle

世界模型：动作条件视频世界模型端到端训练案例

任务设定

总体链路

1. 数据 schema：先保证动作和后果能对齐

2. 数据分桶：不要随机采样全部视频

3. 视觉表示：先压 token，再谈大模型

4. 动作接口：动作太细和太粗都会浪费

5. 训练目标：不要只预测像素

6. 长序列训练：把 mask、packing 和通信提前设计好

7. 数值与显存：低比特要保护敏感模块

8. Rollout 推理：从离线生成变成可交互系统

9. 评测：不要用好看视频代替闭环证据

10. 一个可执行里程碑

常见反例