世界模型：评测与失效模式

世界模型评测不能只看一步预测误差。一个模型可能生成很清晰的视频，却不能帮助规划；也可能短期 rollout 很准，但一接入闭环控制就被自己的误差放大。真正有用的评测应同时回答：模型是否学到世界结构、是否对动作和反事实敏感、是否能在闭环里提升决策、是否知道自己什么时候不可靠。

这页建议和世界模型路线图、生成式模拟与视频世界模型、不确定性与风险敏感规划一起读。总览页讲世界模型的定义，本页讲如何验收它是否可用。

初学者先抓住

世界模型评测不能只看预测画面清不清楚。更关键的是：它是否对动作敏感，是否保留决策相关状态，接入 planner 后是否真的让任务变好。

有趣例子：天气预报和出门决策

一张漂亮的云图不一定能帮你决定带不带伞。真正有用的天气模型要告诉你降雨概率、时间、地点和不确定性。世界模型也是这样：好看的未来不等于可规划的未来。

{ width=“560” .atlas-figure-tall }

图源：Learning Latent Dynamics for Planning from Pixels，Figure 9。原论文图意：展示从真实历史出发的 open-loop latent dynamics 预测，随着 rollout 变长，模型必须在没有真实未来输入的情况下维持世界状态。

图解：open-loop 图要看漂移，不只看第一帧

这类图最容易被误读成“像不像视频”。正确读法是沿时间看：物体身份是否保持、空间布局是否漂移、关键任务变量是否还可读、误差是不是越滚越大。世界模型如果只在短 horizon 好看，接入 planner 后会把小误差放大成错误动作。

一、先分清评测对象：WM、WAM、VAM 不一样

世界模型至少有三层能力：先把历史观测压成足够充分的 belief 或 latent，再给定状态和动作合理预测未来，最后把这些预测用于规划、控制、探索、风险评估或数据回流。评测时也应沿着这三层往下追问，而不是只停在像素误差。

WM / WAM / VAM 的评测重点不同：

类型	应重点问什么
`WM`	rollout 是否稳定，reward/risk/done 是否可读，imagined planning 是否提升决策
`WAM`	动作和世界是否被联合建模，动作生成是否从 world modeling 中获益
`VAM`	视频先验是否提升动作质量，视频 latent 是否有控制价值，视频分支成本是否值得

因此，评测前先写清模型定位。一个只服务离线视频反事实的模型，不应被要求满足高频控制预算；一个声称可用于规划的模型，也不能只汇报视频质量。

二、观测层和状态层：别把“看起来准”当成“可规划”

观测层评测包括一步预测、多步 rollout、视频质量和 horizon-conditioned 曲线。一步预测损失可写成：

$\mathcal{L}_{1\text{-step}} = \mathbb{E}[\ell(\hat{o}_{t+1}, o_{t+1})].$

多步误差更关键：

$\mathcal{L}_{\text{rollout}}(H) = \frac{1}{H}\sum_{h=1}^{H} \mathbb{E}[\ell(\hat{o}_{t+h}, o_{t+h})].$

如果 $H=1$ 表现很好，但随着 horizon 变长快速恶化，说明模型只能做局部拟合，不能稳定推演。对机器人、自动驾驶和长任务 agent 来说，这种模型很容易在规划中偏航。

状态表示评测

隐藏状态 $s_t$ 应保留任务相关信息，同时避免记忆大量无关细节。可用代理任务检查目标位置、速度、接触、遮挡和对象状态能否被线性读出，未来 reward、done、constraint violation 能否被稳定预测，部分可观测环境中的 belief 是否一致，改变动作后状态演化是否合理变化，以及成功轨迹和失败轨迹的关键差异是否被保留下来。

视频质量指标如 FVD、PSNR、SSIM、LPIPS 只能说明一部分问题。世界模型最终要服务决策，清晰但平均化的未来可能比略粗糙但保留关键风险的未来更差。

三、决策层：Open-loop、Closed-loop 与反事实

世界模型最重要的指标之一，是接入规划或策略后能否提升累计回报：

$J(\pi_{\text{plan}}) = \mathbb{E}\left[\sum_{t=0}^{T}\gamma^t r_t\right].$

但只报回报仍不够。评测必须区分 open-loop 和 closed-loop。

评测方式	优点	风险
Open-loop	可离线大规模跑，指标清晰，可复现	始终靠近真实轨迹，不能暴露策略利用模型漏洞
Closed-loop	更接近真实部署，能暴露误差反馈	成本高，变量多，复现实验更难

很多世界模型 open-loop 好，closed-loop 差。原因是 closed-loop 会把模型错误反馈给后续输入，策略还会主动寻找模型中“看起来收益高”的漏洞。

常见误区：open-loop 好就能闭环好

Open-loop 像让模型沿着真实历史轨迹补全未来，closed-loop 则是让模型的预测反过来影响下一步输入。前者更容易复现，后者更接近真实使用。世界模型一旦要服务规划，就必须检查策略是否会利用模型偏差，而不是只看离线 rollout 误差。

反事实评测应成为标配

如果模型声称理解动作后果，就必须测试反事实：固定历史替换动作时，未来应合理分叉；固定动作改变场景结构时，风险应随场景变化；在边界决策处，不同动作的未来排序应接近真实结果；模型还应能识别“更安全”和“更危险”的分支，并把动作敏感性集中在真正相关的状态变量上。

动作敏感性可概念化为：

$\Delta_{\text{act}} = d(\hat{o}_{t+1:t+H}^{(a)}, \hat{o}_{t+1:t+H}^{(a')}).$

如果不同动作给出的未来几乎一样，模型再逼真也不适合控制。

四、风险、不确定性与长尾场景

高风险系统不能只看平均回报。世界模型必须在 near-miss、罕见遮挡、复杂接触、多主体交互、施工路段、突发横穿、透明/软体/反光物体等长尾场景中单独评测。

不确定性评测至少要看五件事：高不确定性是否对应更高真实误差，高风险预测是否对应更高失败率，预测区间是否覆盖真实未来，不同场景桶里的校准是否一致，以及不确定性升高时回退策略是否真的更保守。

只报一个 ECE 或平均 NLL 不够。模型可能在常规场景校准良好，但在稀有风险场景极度过度自信。对部署而言，后者更危险。

Near-miss 应单独建桶

Near-miss 比真实事故更高频，也更适合回流训练。记录时不只保存视频片段，还要保留最小安全间距、接触或碰撞前的风险分数、模型是否提前预测危险、planner 是否因为模型低估风险而继续推进，以及回退或人工接管是否及时触发。

世界模型如果只拟合“常见正常情况”，在低概率危险事件上错误但自信，就不应进入高风险闭环。

五、典型失效模式

世界模型的 failure mode 最好按“修复动作”分类，而不是只写现象。

失效类型	现象	常见修复方向
表示失败	小物体丢失、遮挡后失忆、接触状态不可读	改 tokenizer/latent、加辅助头、补关键状态标签
动力学失败	短期准、长期漂，多主体交互崩	多步训练、latent rollout 正则、真实 closed-loop 回归
动作条件失败	改动作未来不变，或动作影响方向错	反事实数据、动作注入方式、action-conditioned loss
平均化未来	多模态未来被洗成均值	随机 latent、分支采样、扩散/token 生成
规划漏洞	planner 找到模型里高回报但现实坏的动作	adversarial planning test、模型不确定性惩罚、真实回放
部署失败	太慢、不可监控、无法回退	分层使用、低频分析、回退阈值、资源预算

图源：DreamZero，Figure 16。原论文图意：展示 video-action model 在特定视觉未来或动作计划上失败时，动作会沿着错误预测继续执行。

图解：WAM 的失败往往是“一致地错”

普通策略失败可能只是动作噪声；WAM 失败更危险的一点是，错误未来视频和错误动作可能相互支持，看起来像一条连贯计划。评测时要专门检查失败案例：视频未来错在哪里，动作是否跟着错，真实观测刷新后模型能不能纠正，以及 safety layer 是否能在执行前截停。

一个具体例子是机械臂抓取。模型可能生成“物体靠近夹爪”的画面，但没有学到摩擦、接触和夹爪闭合后的状态转移。视觉上没问题，反事实动作一测就暴露：轻微改变抓取角度后，未来仍然几乎不变。

六、评测流水线与发布门槛

世界模型验收建议分五层推进：观测层看一步、多步、视频质量和 horizon-conditioned 曲线；状态层看 reward、risk、done 可读性、belief consistency 和线性探测；决策层看 planning return、成功率、regret 和 closed-loop 表现；鲁棒层看长尾、near-miss、OOD、部分观测和长时任务；部署层看实时预算、回退条件、监控、人审和数据回流。

发布门槛不应写成一张论文榜单，而应写成验收单。模型定位必须说明是 WM / WAM / VAM 中哪一类，输入输出接口和部署环节要清楚，open-loop 与 closed-loop 指标都应过线，counterfactual sensitivity 需要专项测试，高风险桶中不能过度自信，实时性要满足目标环节预算，失败样本能进入数据回流，并且自动回退和人工接管条件已经定义。

人审也要结构化

人类评审仍然重要，但不能只问“看起来像不像”。更好的方式是按场景桶抽样，让评审者回答结构化问题：物理一致性、动作敏感性、风险可见性、长期稳定性、是否保留任务关键信息。

七、线上回流：评测不是一次性表格

一旦世界模型进入系统，评测就应变成持续回流。线上要记录高不确定性样本、预测与真实偏差大的片段、planner 依赖模型后失败的案例，以及 near-miss、人工接管和回退触发；随后把失败映射到表示、动力学、动作条件、规划或部署问题，并把高价值样本沉淀进专项评测桶和再训练数据。

最终判断很直接：一个世界模型如果不能在闭环里提升决策、识别风险、支持反事实或改善数据回流，那它还只是预测模型或生成模型；只有当它改变系统决策质量时，才算通过世界模型验收。

Charles's Castle

世界模型：评测与失效模式

一、先分清评测对象：WM、WAM、VAM 不一样

二、观测层和状态层：别把“看起来准”当成“可规划”

状态表示评测

三、决策层：Open-loop、Closed-loop 与反事实

反事实评测应成为标配

四、风险、不确定性与长尾场景

Near-miss 应单独建桶

五、典型失效模式

六、评测流水线与发布门槛

人审也要结构化

七、线上回流：评测不是一次性表格