世界模型:评测与失效模式

世界模型:评测与失效模式

Charles Lv7

世界模型评测不能只看一步预测误差。一个模型可能生成很清晰的视频,却不能帮助规划;也可能短期 rollout 很准,但一接入闭环控制就被自己的误差放大。真正有用的评测应同时回答:模型是否学到世界结构、是否对动作和反事实敏感、是否能在闭环里提升决策、是否知道自己什么时候不可靠。

这页建议和 世界模型路线图、生成式模拟与视频世界模型不确定性与风险敏感规划 一起读。总览页讲世界模型的定义,本页讲如何验收它是否可用。

初学者先抓住

世界模型评测不能只看预测画面清不清楚。更关键的是:它是否对动作敏感,是否保留决策相关状态,接入 planner 后是否真的让任务变好。

有趣例子:天气预报和出门决策

一张漂亮的云图不一定能帮你决定带不带伞。真正有用的天气模型要告诉你降雨概率、时间、地点和不确定性。世界模型也是这样:好看的未来不等于可规划的未来。

PlaNet open-loop predictions 原论文图{ width=“560” .atlas-figure-tall }

图源:Learning Latent Dynamics for Planning from Pixels,Figure 9。原论文图意:展示从真实历史出发的 open-loop latent dynamics 预测,随着 rollout 变长,模型必须在没有真实未来输入的情况下维持世界状态。

图解:open-loop 图要看漂移,不只看第一帧

这类图最容易被误读成“像不像视频”。正确读法是沿时间看:物体身份是否保持、空间布局是否漂移、关键任务变量是否还可读、误差是不是越滚越大。世界模型如果只在短 horizon 好看,接入 planner 后会把小误差放大成错误动作。

一、先分清评测对象:WM、WAM、VAM 不一样

世界模型至少有三层能力:先把历史观测压成足够充分的 belief 或 latent,再给定状态和动作合理预测未来,最后把这些预测用于规划、控制、探索、风险评估或数据回流。评测时也应沿着这三层往下追问,而不是只停在像素误差。

WM / WAM / VAM 的评测重点不同:

类型 应重点问什么
WM rollout 是否稳定,reward/risk/done 是否可读,imagined planning 是否提升决策
WAM 动作和世界是否被联合建模,动作生成是否从 world modeling 中获益
VAM 视频先验是否提升动作质量,视频 latent 是否有控制价值,视频分支成本是否值得

因此,评测前先写清模型定位。一个只服务离线视频反事实的模型,不应被要求满足高频控制预算;一个声称可用于规划的模型,也不能只汇报视频质量。

二、观测层和状态层:别把“看起来准”当成“可规划”

观测层评测包括一步预测、多步 rollout、视频质量和 horizon-conditioned 曲线。一步预测损失可写成:

L1-step=E[(o^t+1,ot+1)].\mathcal{L}_{1\text{-step}} = \mathbb{E}[\ell(\hat{o}_{t+1}, o_{t+1})].

多步误差更关键:

Lrollout(H)=1Hh=1HE[(o^t+h,ot+h)].\mathcal{L}_{\text{rollout}}(H) = \frac{1}{H}\sum_{h=1}^{H} \mathbb{E}[\ell(\hat{o}_{t+h}, o_{t+h})].

如果 H=1H=1 表现很好,但随着 horizon 变长快速恶化,说明模型只能做局部拟合,不能稳定推演。对机器人、自动驾驶和长任务 agent 来说,这种模型很容易在规划中偏航。

状态表示评测

隐藏状态 sts_t 应保留任务相关信息,同时避免记忆大量无关细节。可用代理任务检查目标位置、速度、接触、遮挡和对象状态能否被线性读出,未来 reward、done、constraint violation 能否被稳定预测,部分可观测环境中的 belief 是否一致,改变动作后状态演化是否合理变化,以及成功轨迹和失败轨迹的关键差异是否被保留下来。

视频质量指标如 FVD、PSNR、SSIM、LPIPS 只能说明一部分问题。世界模型最终要服务决策,清晰但平均化的未来可能比略粗糙但保留关键风险的未来更差。

三、决策层:Open-loop、Closed-loop 与反事实

世界模型最重要的指标之一,是接入规划或策略后能否提升累计回报:

J(πplan)=E[t=0Tγtrt].J(\pi_{\text{plan}}) = \mathbb{E}\left[\sum_{t=0}^{T}\gamma^t r_t\right].

但只报回报仍不够。评测必须区分 open-loop 和 closed-loop。

评测方式 优点 风险
Open-loop 可离线大规模跑,指标清晰,可复现 始终靠近真实轨迹,不能暴露策略利用模型漏洞
Closed-loop 更接近真实部署,能暴露误差反馈 成本高,变量多,复现实验更难

很多世界模型 open-loop 好,closed-loop 差。原因是 closed-loop 会把模型错误反馈给后续输入,策略还会主动寻找模型中“看起来收益高”的漏洞。

常见误区:open-loop 好就能闭环好

Open-loop 像让模型沿着真实历史轨迹补全未来,closed-loop 则是让模型的预测反过来影响下一步输入。前者更容易复现,后者更接近真实使用。世界模型一旦要服务规划,就必须检查策略是否会利用模型偏差,而不是只看离线 rollout 误差。

反事实评测应成为标配

如果模型声称理解动作后果,就必须测试反事实:固定历史替换动作时,未来应合理分叉;固定动作改变场景结构时,风险应随场景变化;在边界决策处,不同动作的未来排序应接近真实结果;模型还应能识别“更安全”和“更危险”的分支,并把动作敏感性集中在真正相关的状态变量上。

动作敏感性可概念化为:

Δact=d(o^t+1:t+H(a),o^t+1:t+H(a)).\Delta_{\text{act}} = d(\hat{o}_{t+1:t+H}^{(a)}, \hat{o}_{t+1:t+H}^{(a')}).

如果不同动作给出的未来几乎一样,模型再逼真也不适合控制。

四、风险、不确定性与长尾场景

高风险系统不能只看平均回报。世界模型必须在 near-miss、罕见遮挡、复杂接触、多主体交互、施工路段、突发横穿、透明/软体/反光物体等长尾场景中单独评测。

不确定性评测至少要看五件事:高不确定性是否对应更高真实误差,高风险预测是否对应更高失败率,预测区间是否覆盖真实未来,不同场景桶里的校准是否一致,以及不确定性升高时回退策略是否真的更保守。

只报一个 ECE 或平均 NLL 不够。模型可能在常规场景校准良好,但在稀有风险场景极度过度自信。对部署而言,后者更危险。

Near-miss 应单独建桶

Near-miss 比真实事故更高频,也更适合回流训练。记录时不只保存视频片段,还要保留最小安全间距、接触或碰撞前的风险分数、模型是否提前预测危险、planner 是否因为模型低估风险而继续推进,以及回退或人工接管是否及时触发。

世界模型如果只拟合“常见正常情况”,在低概率危险事件上错误但自信,就不应进入高风险闭环。

五、典型失效模式

世界模型的 failure mode 最好按“修复动作”分类,而不是只写现象。

失效类型 现象 常见修复方向
表示失败 小物体丢失、遮挡后失忆、接触状态不可读 改 tokenizer/latent、加辅助头、补关键状态标签
动力学失败 短期准、长期漂,多主体交互崩 多步训练、latent rollout 正则、真实 closed-loop 回归
动作条件失败 改动作未来不变,或动作影响方向错 反事实数据、动作注入方式、action-conditioned loss
平均化未来 多模态未来被洗成均值 随机 latent、分支采样、扩散/token 生成
规划漏洞 planner 找到模型里高回报但现实坏的动作 adversarial planning test、模型不确定性惩罚、真实回放
部署失败 太慢、不可监控、无法回退 分层使用、低频分析、回退阈值、资源预算

DreamZero failure case 原论文图

图源:DreamZero,Figure 16。原论文图意:展示 video-action model 在特定视觉未来或动作计划上失败时,动作会沿着错误预测继续执行。

图解:WAM 的失败往往是“一致地错”

普通策略失败可能只是动作噪声;WAM 失败更危险的一点是,错误未来视频和错误动作可能相互支持,看起来像一条连贯计划。评测时要专门检查失败案例:视频未来错在哪里,动作是否跟着错,真实观测刷新后模型能不能纠正,以及 safety layer 是否能在执行前截停。

一个具体例子是机械臂抓取。模型可能生成“物体靠近夹爪”的画面,但没有学到摩擦、接触和夹爪闭合后的状态转移。视觉上没问题,反事实动作一测就暴露:轻微改变抓取角度后,未来仍然几乎不变。

六、评测流水线与发布门槛

世界模型验收建议分五层推进:观测层看一步、多步、视频质量和 horizon-conditioned 曲线;状态层看 reward、risk、done 可读性、belief consistency 和线性探测;决策层看 planning return、成功率、regret 和 closed-loop 表现;鲁棒层看长尾、near-miss、OOD、部分观测和长时任务;部署层看实时预算、回退条件、监控、人审和数据回流。

发布门槛不应写成一张论文榜单,而应写成验收单。模型定位必须说明是 WM / WAM / VAM 中哪一类,输入输出接口和部署环节要清楚,open-loop 与 closed-loop 指标都应过线,counterfactual sensitivity 需要专项测试,高风险桶中不能过度自信,实时性要满足目标环节预算,失败样本能进入数据回流,并且自动回退和人工接管条件已经定义。

人审也要结构化

人类评审仍然重要,但不能只问“看起来像不像”。更好的方式是按场景桶抽样,让评审者回答结构化问题:物理一致性、动作敏感性、风险可见性、长期稳定性、是否保留任务关键信息。

七、线上回流:评测不是一次性表格

一旦世界模型进入系统,评测就应变成持续回流。线上要记录高不确定性样本、预测与真实偏差大的片段、planner 依赖模型后失败的案例,以及 near-miss、人工接管和回退触发;随后把失败映射到表示、动力学、动作条件、规划或部署问题,并把高价值样本沉淀进专项评测桶和再训练数据。

最终判断很直接:一个世界模型如果不能在闭环里提升决策、识别风险、支持反事实或改善数据回流,那它还只是预测模型或生成模型;只有当它改变系统决策质量时,才算通过世界模型验收。

  • Title: 世界模型:评测与失效模式
  • Author: Charles
  • Created at : 2026-04-30 09:00:00
  • Updated at : 2026-04-30 09:00:00
  • Link: https://charles2530.github.io/2026/04/30/ai-files-world-models-evaluation-and-failure-modes/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments