VLM/VLA：符号与最小数学地图

这页不是数学考试，而是一张读论文和读教程时随手查的地图。VLM/VLA 里很多公式看起来吓人，其实大多只是在回答三件事：

1	看到了什么 -> 该做什么 -> 做了以后会怎样

初学者先抓住

看到公式时先别急着推导。先问四个问题：输入是什么，输出是什么，时间下标 $t$ 表示哪一刻，模型是在回答“理解”“行动”还是“预测后果”。

1. 三类最常见公式

VLM：看图回答问题

$p_\theta(y \mid x_v, x_t)$

符号	读法	含义
$p_\theta$	参数为 $\theta$ 的概率模型	模型给不同输出分配概率
$y$	输出	回答、caption、标签、框、工具调用等
$x_v$	visual input	图像、视频帧、视觉 token 或视觉特征
$x_t$	text input	问题、prompt、类别文本或任务描述
$\mid$	given	“在给定这些输入的条件下”

读作什么：给定视觉输入和文本输入，模型生成或选择输出 $y$ 。

红杯例子：输入是一张桌面图和问题“红杯在哪里”，输出是“红杯在桌边”。

它不说明什么：这个公式不保证模型会移动机械臂，也不说明动作执行后世界会怎样变化。

VLA：从观察到动作

$\pi_\theta(a_t \mid o_{\le t}, l)$

符号	读法	含义
$\pi_\theta$	policy	策略模型，负责输出动作
$a_t$	action at time $t$	当前要执行的动作，可以是连续控制量、动作 token 或 action chunk
$o_{\le t}$	observations up to $t$	当前和历史观测，例如图像、深度、关节状态、夹爪状态
$l$	language instruction	语言指令，例如“把红杯放到托盘上”

读作什么：策略根据到目前为止看到的东西和语言目标，决定现在怎么动。

红杯例子：观测到红杯靠近桌边，指令是“放到托盘上”，策略输出“夹爪向红杯移动并准备闭合”的动作。

它不说明什么：它只说动作从哪里来，不保证这个动作安全、平滑，也不保证动作之后一定成功。

世界模型：预测动作后果

$p_\theta(z_{t+1:t+H_{\text{hor}}}, r, d \mid z_t, a_{t:t+H_{\text{hor}}-1}, l)$

符号	读法	含义
$z_t$	latent state	压缩后的世界状态，比原始像素更适合预测
$H_{\text{hor}}$	horizon	往未来看多少步
$r$	reward / progress	成功、进度或任务收益信号
$d$	done / termination	任务是否结束、失败或需要中止
$a_{t:t+H_{\text{hor}}-1}$	action sequence	从现在开始的一段候选动作

读作什么：如果从状态 $z_t$ 开始执行这一段动作，模型预测未来状态、收益和是否结束。

红杯例子：如果快速从侧面推红杯，世界模型应该预测滑落风险上升；如果从上方夹取并慢速移动，风险更低。

它不说明什么：未来预测不是执行保证。真实系统仍要用控制器、安全层和重新观测来纠错。

2. 视觉 token 的最小数学

一张图像常写成：

$I \in \mathbb{R}^{H_{\text{img}} \times W_{\text{img}} \times C}$

符号	含义	常见单位或形状
$I$	image，输入图像	一个三维数组
$H_{\text{img}}$	image height，图像高度	像素数
$W_{\text{img}}$	image width，图像宽度	像素数
$C$	channels，通道数	RGB 常为 3
$P$	patch size	每个 patch 的边长
$N$	patch token 数	进入视觉 encoder 的空间 token 数
$d$	hidden dimension	每个 token 的向量维度

把图像切成 $P \times P$ patch 后：

$N = \frac{H_{\text{img}}}{P}\cdot\frac{W_{\text{img}}}{P}$

读作什么：图像越大、patch 越小，token 越多。

小账：若图像是 $224 \times 224$ ，patch 是 $16 \times 16$ ，则 $N=14\times14=196$ 。如果是 16 帧、4 路相机，就变成 $16\times4\times196=12544$ 个视觉 token，训练成本会迅速上升。

常见误解

这里的 $H_{\text{img}}$ 是图像高度，世界模型里的 $H_{\text{hor}}$ 是预测 horizon。很多论文都用 $H$ ，读教程时最好在脑子里把它们分开。

3. 训练数据、损失和分布

数据集

$\mathcal{D}=\{(o_t^{(i)}, l^{(i)}, a_t^{(i)})\}_{i=1}^{M}$

符号	含义
$\mathcal{D}$	训练数据集
$i$	第 $i$ 条样本或第 $i$ 段示范
$M$	样本数量
$o_t^{(i)}$	第 $i$ 条数据在时刻 $t$ 的观测
$a_t^{(i)}$	专家或数据记录里的动作标签

行为克隆损失

$\mathcal{L}_{\text{BC}} = - \sum_{(o,l,a)\in\mathcal{D}} \log \pi_\theta(a \mid o, l)$

读作什么：专家在这个观测下做了动作 $a$ ，那就让模型也更倾向于输出 $a$ 。

红杯例子：示范数据里专家从上方夹红杯，行为克隆就让模型在类似观测下也学会从上方接近。

它不说明什么：行为克隆只模仿数据中出现过的动作。部署时模型一旦走偏，后续观测可能不再像训练集，错误会越滚越大。

高斯策略和 MSE

$\pi_\theta(a_t \mid o_{\le t}, l)=\mathcal{N}(\mu_\theta(o_{\le t}, l), \Sigma_\theta(o_{\le t}, l))$

符号	含义
$\mathcal{N}$	高斯分布
$\mu_\theta$	模型预测的平均动作
$\Sigma_\theta$	动作分布的协方差，表示不确定性和各维尺度

如果固定协方差，最大似然常会变成类似 MSE 的回归：

$\mathcal{L}_{\text{MSE}} = \sum_t \|a_t - \hat{a}_t\|_2^2$

常见误解：MSE 小不等于机器人一定成功。若同一场景有“从左绕”和“从右绕”两种合理动作，MSE 可能学到两者中间的平均轨迹，反而不可执行。

4. 观测、状态和 latent 的区别

名称	常用符号	初学者理解	例子
观测	$o_t$	传感器当前看到的东西	当前 RGB、深度、关节角
真实状态	$s_t$	足以预测未来的完整世界信息	杯子真实位置、速度、摩擦、是否已被夹住
latent 状态	$z_t$	模型内部压缩出来的状态	视觉 encoder 或世界模型记忆里的向量
文本/语言	$x_t, l$	问题、类别文本或任务指令	“把红杯放到托盘上”

真实机器人通常看不到完整 $s_t$ ，只能从 $o_{\le t}$ 推断。VLA 和世界模型都在努力把历史观测压成一个足够有用的 $z_t$ 。

5. 动作符号怎么读

形式	公式	含义	风险
单步动作	$a_t$	当前一步动作	高频决策可能抖
动作序列	$a_{t:t+H-1}$	从 $t$ 到 $t+H-1$ 的动作	horizon 长时成本高
action chunk	$\hat A_{t:t+H-1}$	一次预测未来一小段动作	chunk 内出错时恢复慢
离散 token	$(u_t^1,\dots,u_t^m)$	把连续动作分桶成 token	量化误差和边界抖动
连续动作	$[\Delta x,\Delta y,\Delta z,\Delta r,\Delta p,\Delta y,g]$	末端位姿增量和夹爪控制	单位、坐标系和频率必须统一

6. 读公式的安全检查

读 VLM/VLA 论文时，看到一个公式就用下面四句检查：

这是在看懂当前输入，还是在输出动作，还是在预测动作后果？
时间下标 $t$ 指的是观测时刻、动作时刻，还是预测未来时刻？
公式里的变量是原始数据、模型内部 latent，还是控制器真正会执行的命令？
训练目标优化的指标，能不能代表闭环成功和安全？

如果这四句答不清，先不要急着比较模型强弱。VLM/VLA 最常见的阅读陷阱，就是把“静态理解分数”“离线动作误差”和“真实闭环成功率”混在一起。

Charles's Castle

VLM/VLA：符号与最小数学地图

1. 三类最常见公式

VLM：看图回答问题

VLA：从观察到动作

世界模型：预测动作后果

2. 视觉 token 的最小数学

3. 训练数据、损失和分布

数据集

行为克隆损失

高斯策略和 MSE

4. 观测、状态和 latent 的区别

5. 动作符号怎么读

6. 读公式的安全检查