量化：多模态与 VLA 模型量化

量化在 LLM 上已相对成熟，但到了 VLM、视频模型、VLA 和具身系统，问题会明显复杂化。原因不只是模型更大，而是输入分布更杂、模块更多、对细粒度结构和时序稳定性的要求更高。一个在文本问答上还能接受的量化误差，到了文档理解、UI grounding 或机器人动作生成中，可能就会被放大成明显错误。因此，多模态与 VLA 模型量化需要比“压参数”更细的思路。

初学者先抓住

多模态量化最怕“平均看起来没问题，关键细节坏了”。文档数字、UI 坐标、表格边界、动作头输出和时序一致性都可能对低精度误差很敏感，因此校准集和评测集必须覆盖这些长尾。

难点解释：为什么 VLA 比聊天模型更谨慎

聊天模型量化后偶尔措辞变差，用户还能追问；VLA 量化后一个小动作偏差可能在闭环里累积成抓取失败或碰撞风险。它评估的是时序控制稳定性，不只是单步回答质量。

有趣例子：发票小数点和机械臂夹爪

文档 VLM 少看一个小数点，金额就可能错一百倍；VLA 动作头偏一点，夹爪就可能碰到杯沿。多模态量化要保护的往往不是平均语义，而是这些小而关键的结构。

1. 为什么多模态模型更敏感

多模态系统通常由视觉编码器、文本编码器或 LLM 主干、跨模态投影层、OCR / grounding / 分类头等结构模块，以及动作头或控制头组成。

不同模块对量化误差的敏感性差异极大。视觉主干可能对轻微权重量化较稳，但跨模态投影和动作头往往对尺度偏差更敏感。

2. 输入分布更异质

文本模型面对的是 token 序列；VLM / VLA 面对的则是自然图像、文档页、图表、UI 截图、视频帧、机器人 proprioception 和语言指令。

这些输入的统计差异很大，导致激活分布也更复杂。统一校准集若覆盖不够，很容易遗漏关键长尾。

3. 跨模态投影为何关键

很多 VLM 把视觉特征投到语言模型空间，形式上类似：

$h_v' = W_p h_v.$

这个投影层若量化误差较大，可能直接损坏模态对齐，表现为图像信息进入 LLM 后被弱化、OCR 细节和版面关系丢失、grounding 位置偏差增大。

因此实际部署中，这类层常是混合精度保留重点。

4. 文档与 OCR 场景的特殊敏感性

文档 VLM 对数字、小字体和结构关系极度敏感。量化误差一旦影响细粒度视觉特征、OCR token 对齐、表格边界、字段定位或数值 token 排序匹配，就会造成业务上不可接受的错误。这里“主观上看没啥区别”的图像特征变化，可能在财务或合规任务里非常致命。

5. UI 与 grounding 场景的特殊敏感性

屏幕 agent 需要识别小按钮、相近文案和位置关系。量化后常见问题包括相邻元素区分度下降、位置回归抖动、状态文本细节丢失，以及多步操作中的错误累积。

因此 grounding 头、坐标回归相关层，以及与空间结构有关的模块，通常要比通用问答头更谨慎。

6. VLA 的控制敏感性

在 VLA 中，量化误差不只是回答变差，而可能直接变成动作抖动、抓取失败或恢复困难。设动作预测为

$\hat{a}_t = f_\theta(o_t, l, h_t),$

若量化后参数变为 $\tilde{\theta}$ ，误差可能在闭环中累积：

$\delta a_t = f_{\tilde{\theta}}(o_t,l,h_t) - f_\theta(o_t,l,h_t).$

短期看 $\delta a_t$ 很小，但经过动力学滚动后，可能导致状态显著偏离。

7. 时序一致性比单步精度更重要

对视频 VLM 和 VLA 而言，量化评估不能只看单帧或单步，而要检查多帧特征是否稳定、长序列动作是否漂移、恢复策略是否仍有效、低比特是否增加抖动和不确定性。

这意味着评测集必须包含时序任务，而不只是静态问答。

8. 校准集的扩展原则

多模态量化校准集应覆盖高分辨率文档与低质扫描、图表与表格、UI 截图与深浅色主题、视频关键帧、机器人长时轨迹片段，以及数字、公式、细粒度文本。

如果只用普通自然图像和短文本做校准，很多关键分布都没被看见。

9. 混合精度在多模态系统中的实践

一个可行思路往往是：视觉 backbone 主体低比特，跨模态投影高精度保留，grounding / OCR / 动作头保留更高精度，LLM 主体使用已成熟量化路径，KV cache 视任务再单独优化。

这不是妥协，而是按照敏感度分配精度预算。

10. 模块级误差定位

多模态系统一旦量化后退化，最好先问：问答能力掉了，还是图像利用率掉了；grounding 坐标偏了，还是语言理解错了；动作成功率下降，是动作头问题还是视觉状态估计问题。

这要求模块级评测，而不是只看端到端总分。

11. 例子：发票理解 VLM

一个量化后的发票模型在常规问答上几乎没掉点，但在“税率 9% / 13% 区分”和“金额字段跨页关联”上明显变差。排查后发现量化主要伤害了跨模态投影层和表格结构头，而不是 LLM 主体。若一开始只看整体问答准确率，这种问题很难看出来。

12. 例子：仓库机器人 VLA

量化后，机器人在简单抓取任务上仍然成功，但在细长物体和狭窄容器放置中恢复能力变差。说明量化误差主要影响了动作精细调节和时序稳定性，而不是高层任务理解。此时应优先恢复动作头和关键感知层精度，而不是整体回退到高比特。

13. 设计建议

多模态量化必须使用专项校准集，不可只靠通用文本或图像数据。更稳的流程是先做模块级敏感度分析，找到必须高精保留的层；对 VLA 加入长时闭环评测，而不是只看离线动作误差；把跨模态投影、grounding、结构头和动作头列为重点保护对象。若系统面向高风险业务，宁可保守混合精度，也不要盲目追最小比特。

14. 小结

多模态与 VLA 模型量化的难点，不是参数更多，而是误差会穿过模态对齐、结构理解和控制闭环，被放大成真实任务失败。只有把量化看成一个跨模块、跨时序、跨任务的系统设计问题，才能在节省资源的同时维持真正可用的能力。

工程收束

多模态与 VLA 量化要拆开看视觉编码器、跨模态对齐、动作头、缓存布局和控制风险。最容易踩坑的是只量化语言头、模态间尺度失配、闭环控制误差被静态指标掩盖；验收时应拆分编码器 / 融合层 / 动作头，离线和闭环同时评测，并保留关键模态的高精路径。