VLM/VLA:符号与最小数学地图
这页不是数学考试,而是一张读论文和读教程时随手查的地图。VLM/VLA 里很多公式看起来吓人,其实大多只是在回答三件事:
1 | 看到了什么 -> 该做什么 -> 做了以后会怎样 |
看到公式时先别急着推导。先问四个问题:输入是什么,输出是什么,时间下标 表示哪一刻,模型是在回答“理解”“行动”还是“预测后果”。
1. 三类最常见公式
VLM:看图回答问题
| 符号 | 读法 | 含义 |
|---|---|---|
| 参数为 的概率模型 | 模型给不同输出分配概率 | |
| 输出 | 回答、caption、标签、框、工具调用等 | |
| visual input | 图像、视频帧、视觉 token 或视觉特征 | |
| text input | 问题、prompt、类别文本或任务描述 | |
| given | “在给定这些输入的条件下” |
读作什么:给定视觉输入和文本输入,模型生成或选择输出 。
红杯例子:输入是一张桌面图和问题“红杯在哪里”,输出是“红杯在桌边”。
它不说明什么:这个公式不保证模型会移动机械臂,也不说明动作执行后世界会怎样变化。
VLA:从观察到动作
| 符号 | 读法 | 含义 |
|---|---|---|
| policy | 策略模型,负责输出动作 | |
| action at time | 当前要执行的动作,可以是连续控制量、动作 token 或 action chunk | |
| observations up to | 当前和历史观测,例如图像、深度、关节状态、夹爪状态 | |
| language instruction | 语言指令,例如“把红杯放到托盘上” |
读作什么:策略根据到目前为止看到的东西和语言目标,决定现在怎么动。
红杯例子:观测到红杯靠近桌边,指令是“放到托盘上”,策略输出“夹爪向红杯移动并准备闭合”的动作。
它不说明什么:它只说动作从哪里来,不保证这个动作安全、平滑,也不保证动作之后一定成功。
世界模型:预测动作后果
| 符号 | 读法 | 含义 |
|---|---|---|
| latent state | 压缩后的世界状态,比原始像素更适合预测 | |
| horizon | 往未来看多少步 | |
| reward / progress | 成功、进度或任务收益信号 | |
| done / termination | 任务是否结束、失败或需要中止 | |
| action sequence | 从现在开始的一段候选动作 |
读作什么:如果从状态 开始执行这一段动作,模型预测未来状态、收益和是否结束。
红杯例子:如果快速从侧面推红杯,世界模型应该预测滑落风险上升;如果从上方夹取并慢速移动,风险更低。
它不说明什么:未来预测不是执行保证。真实系统仍要用控制器、安全层和重新观测来纠错。
2. 视觉 token 的最小数学
一张图像常写成:
| 符号 | 含义 | 常见单位或形状 |
|---|---|---|
| image,输入图像 | 一个三维数组 | |
| image height,图像高度 | 像素数 | |
| image width,图像宽度 | 像素数 | |
| channels,通道数 | RGB 常为 3 | |
| patch size | 每个 patch 的边长 | |
| patch token 数 | 进入视觉 encoder 的空间 token 数 | |
| hidden dimension | 每个 token 的向量维度 |
把图像切成 patch 后:
读作什么:图像越大、patch 越小,token 越多。
小账:若图像是 ,patch 是 ,则 。如果是 16 帧、4 路相机,就变成 个视觉 token,训练成本会迅速上升。
这里的 是图像高度,世界模型里的 是预测 horizon。很多论文都用 ,读教程时最好在脑子里把它们分开。
3. 训练数据、损失和分布
数据集
| 符号 | 含义 |
|---|---|
| 训练数据集 | |
| 第 条样本或第 段示范 | |
| 样本数量 | |
| 第 条数据在时刻 的观测 | |
| 专家或数据记录里的动作标签 |
行为克隆损失
读作什么:专家在这个观测下做了动作 ,那就让模型也更倾向于输出 。
红杯例子:示范数据里专家从上方夹红杯,行为克隆就让模型在类似观测下也学会从上方接近。
它不说明什么:行为克隆只模仿数据中出现过的动作。部署时模型一旦走偏,后续观测可能不再像训练集,错误会越滚越大。
高斯策略和 MSE
| 符号 | 含义 |
|---|---|
| 高斯分布 | |
| 模型预测的平均动作 | |
| 动作分布的协方差,表示不确定性和各维尺度 |
如果固定协方差,最大似然常会变成类似 MSE 的回归:
常见误解:MSE 小不等于机器人一定成功。若同一场景有“从左绕”和“从右绕”两种合理动作,MSE 可能学到两者中间的平均轨迹,反而不可执行。
4. 观测、状态和 latent 的区别
| 名称 | 常用符号 | 初学者理解 | 例子 |
|---|---|---|---|
| 观测 | 传感器当前看到的东西 | 当前 RGB、深度、关节角 | |
| 真实状态 | 足以预测未来的完整世界信息 | 杯子真实位置、速度、摩擦、是否已被夹住 | |
| latent 状态 | 模型内部压缩出来的状态 | 视觉 encoder 或世界模型记忆里的向量 | |
| 文本/语言 | 问题、类别文本或任务指令 | “把红杯放到托盘上” |
真实机器人通常看不到完整 ,只能从 推断。VLA 和世界模型都在努力把历史观测压成一个足够有用的 。
5. 动作符号怎么读
| 形式 | 公式 | 含义 | 风险 |
|---|---|---|---|
| 单步动作 | 当前一步动作 | 高频决策可能抖 | |
| 动作序列 | 从 到 的动作 | horizon 长时成本高 | |
| action chunk | 一次预测未来一小段动作 | chunk 内出错时恢复慢 | |
| 离散 token | 把连续动作分桶成 token | 量化误差和边界抖动 | |
| 连续动作 | 末端位姿增量和夹爪控制 | 单位、坐标系和频率必须统一 |
6. 读公式的安全检查
读 VLM/VLA 论文时,看到一个公式就用下面四句检查:
- 这是在看懂当前输入,还是在输出动作,还是在预测动作后果?
- 时间下标 指的是观测时刻、动作时刻,还是预测未来时刻?
- 公式里的变量是原始数据、模型内部 latent,还是控制器真正会执行的命令?
- 训练目标优化的指标,能不能代表闭环成功和安全?
如果这四句答不清,先不要急着比较模型强弱。VLM/VLA 最常见的阅读陷阱,就是把“静态理解分数”“离线动作误差”和“真实闭环成功率”混在一起。
- Title: VLM/VLA:符号与最小数学地图
- Author: Charles
- Created at : 2026-05-07 09:00:00
- Updated at : 2026-05-07 09:00:00
- Link: https://charles2530.github.io/2026/05/07/ai-files-vlm-vlm-vla-symbols-and-minimal-math/
- License: This work is licensed under CC BY-NC-SA 4.0.