VLM/VLA:多模态评测与失败模式

VLM/VLA:多模态评测与失败模式

Charles Lv7

VLM/VLA 的评测不能只看一个总分。静态图文问答、视频理解、动作执行、闭环恢复和世界模型预测,其实对应完全不同的失败方式。一个系统可能看图说得很好,却在坐标、时序、动作和安全上不可靠。

初学者先抓住

多模态系统的失败常常不是“完全看不懂”,而是局部细节错:左右混淆、小字漏读、按钮坐标偏、跨帧忘记、动作抖动或失败后不会恢复。这些错误在聊天里只是小毛病,在机器人和世界模型里可能直接变成任务失败。

评测层级

层级 评测对象 常见指标 典型风险
静态 VLM 图片、图表、屏幕、OCR VQA、OCR、grounding、图表问答 看懂但定位不准
视频理解 多帧、长视频、事件 temporal QA、事件顺序、跨帧一致性 会描述片段但丢长时依赖
VLA 策略 观测到动作 action accuracy、success rate、恢复率 离线动作像,闭环执行差
世界模型 动作条件未来 rollout consistency、action sensitivity、risk calibration 未来好看但不受动作影响
系统部署 端到端任务 P95/P99、接管率、失败回放、成本 平均指标好,长尾不可控

高频失败模式

1. 视觉细节失败

包括小字、表格、图例、按钮、边界、遮挡物和抓取点识别错误。它们对普通聊天影响有限,但对屏幕 agent、机器人抓取和自动驾驶非常关键。

2. 坐标与方向失败

常见表现是左右混淆、前后不稳、相对位置判断错、相机坐标和机器人坐标没有对齐。VLA 中这会直接变成错误动作。

3. 时序失败

模型能理解单帧,却不知道前一帧发生了什么;能复述视频,却无法判断因果顺序;能短 horizon 预测,却在长 horizon 漂移。

4. 动作敏感性不足

这是世界模型最关键的失败之一:给不同动作,模型生成的未来差不多。表面上视频合理,实际上不能用于规划。

5. 闭环恢复失败

动作偏了一点后,模型继续按原计划执行,而不是重新观察、识别失败、调整策略。真实机器人任务里,恢复能力往往比单步成功率更重要。

评测集应该怎么设计

一个有用的 VLM/VLA 评测集,最好按“能力轴 + 场景桶 + 成本桶”组织:

维度 要覆盖什么
能力轴 OCR、grounding、时序、动作、恢复、安全
场景桶 桌面操作、导航、抓取、屏幕、长视频、多人/多物体
成本桶 短输入、长上下文、长输出、多轮 agent、多模态输入
风险桶 高价值任务、安全约束、不可逆动作、隐私信息

这样做的好处是,量化、上下文压缩、连接器替换、动作接口调整和世界模型蒸馏,都能在同一套桶里比较,而不是各测各的。

面向世界模型的专项指标

指标 问什么 为什么重要
Action sensitivity 动作变了,未来是否合理分叉 判断模型是否真正条件化在动作上
Temporal consistency 物体、状态、约束是否跨帧保持 判断 rollout 是否可用
Risk calibration 失败概率是否被低估 决定能否用于安全规划
Recovery usefulness 预测是否帮助 policy 修正 判断世界模型是否改善闭环
Cost per successful rollout 每个成功 rollout 花多少 GPU / 真实交互 直接对应高效训练目标

一个验收建议

每次 VLM/VLA 改动都要保留失败回放:输入图像/视频、语言指令、模型动作、环境反馈、是否恢复、失败原因和对应 trace。没有失败回放,评测只会告诉你“分数掉了”,不会告诉你“为什么掉、该补数据还是改模型”。

下一步可接 VLM/VLA 与世界模型高效训练接口,把评测结果转成训练样本、反事实数据和 rollout 验收。

  • Title: VLM/VLA:多模态评测与失败模式
  • Author: Charles
  • Created at : 2026-04-11 09:00:00
  • Updated at : 2026-04-11 09:00:00
  • Link: https://charles2530.github.io/2026/04/11/ai-files-vlm-multimodal-evaluation-and-failure-modes/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments