VLM/VLA：多模态评测与失败模式

VLM/VLA 的评测不能只看一个总分。静态图文问答、视频理解、动作执行、闭环恢复和世界模型预测，其实对应完全不同的失败方式。一个系统可能看图说得很好，却在坐标、时序、动作和安全上不可靠。

初学者先抓住

多模态系统的失败常常不是“完全看不懂”，而是局部细节错：左右混淆、小字漏读、按钮坐标偏、跨帧忘记、动作抖动或失败后不会恢复。这些错误在聊天里只是小毛病，在机器人和世界模型里可能直接变成任务失败。

评测层级

层级	评测对象	常见指标	典型风险
静态 VLM	图片、图表、屏幕、OCR	VQA、OCR、grounding、图表问答	看懂但定位不准
视频理解	多帧、长视频、事件	temporal QA、事件顺序、跨帧一致性	会描述片段但丢长时依赖
VLA 策略	观测到动作	action accuracy、success rate、恢复率	离线动作像，闭环执行差
世界模型	动作条件未来	rollout consistency、action sensitivity、risk calibration	未来好看但不受动作影响
系统部署	端到端任务	P95/P99、接管率、失败回放、成本	平均指标好，长尾不可控

包括小字、表格、图例、按钮、边界、遮挡物和抓取点识别错误。它们对普通聊天影响有限，但对屏幕 agent、机器人抓取和自动驾驶非常关键。

常见表现是左右混淆、前后不稳、相对位置判断错、相机坐标和机器人坐标没有对齐。VLA 中这会直接变成错误动作。

模型能理解单帧，却不知道前一帧发生了什么；能复述视频，却无法判断因果顺序；能短 horizon 预测，却在长 horizon 漂移。

这是世界模型最关键的失败之一：给不同动作，模型生成的未来差不多。表面上视频合理，实际上不能用于规划。

动作偏了一点后，模型继续按原计划执行，而不是重新观察、识别失败、调整策略。真实机器人任务里，恢复能力往往比单步成功率更重要。

一个有用的 VLM/VLA 评测集，最好按“能力轴 + 场景桶 + 成本桶”组织：

这样做的好处是，量化、上下文压缩、连接器替换、动作接口调整和世界模型蒸馏，都能在同一套桶里比较，而不是各测各的。

每次 VLM/VLA 改动都要保留失败回放：输入图像/视频、语言指令、模型动作、环境反馈、是否恢复、失败原因和对应 trace。没有失败回放，评测只会告诉你“分数掉了”，不会告诉你“为什么掉、该补数据还是改模型”。

下一步可接 VLM/VLA 与世界模型高效训练接口，把评测结果转成训练样本、反事实数据和 rollout 验收。