VLM/VLA：部署与安全

VLA 训练跑通，只能说明模型在离线数据上学会了某种视觉到动作映射。
真正难的是部署：
机器人要在真实硬件、实时闭环、存在人类和脆弱物体的环境里运行，任何一个环节慢一点、抖一点、错一点，都可能从“能演示”变成“不可上线”。

初学者先抓住

部署 VLA 时，“动作逻辑正确”还不够。系统必须足够快、足够稳、能被安全层拦住、能被人工接管，并且每次失败都能回放追责。

有趣例子：自动门

自动门的识别模型可能知道有人来了，但如果门开慢半秒、传感器漏检、或者夹到人时没有回弹，系统就不安全。机器人部署也是同理，安全来自整条链路，不是单个模型分数。

1. 延迟预算：动作正确还不够，得来得及

若控制频率为 $f$ ，则单次闭环总延迟需满足：

$L_{\text{sense}} + L_{\text{model}} + L_{\text{post}} + L_{\text{act}} < \frac{1}{f}$

其中：

$L_{\text{sense}}$ ：感知采集与预处理
$L_{\text{model}}$ ：模型推理
$L_{\text{post}}$ ：后处理、滤波、安全检查
$L_{\text{act}}$ ：控制命令下发与执行器响应

例如 $f=10\text{Hz}$ 时，整个闭环最好低于 100ms。
若是更快的低层控制，预算会更紧。

2. 为什么大模型不一定更适合机器人闭环

大模型可能带来更强的视觉理解和更自然的指令跟随，能处理复杂场景、对象属性、空间关系和多约束任务。但它也可能推理更慢、显存更大、部署链路更复杂；模型、runtime、安全层和监控都要一起适配。

如果它把推理延迟从 60ms 拉到 250ms，那么在动态环境下，哪怕动作逻辑更“聪明”，也可能已经来不及。

一个直观例子：移动底盘避人

若机器人看到行人突然从拐角出现，60ms 内给出减速指令通常还能避开；250ms 后才输出，再正确也可能太晚。

这说明机器人系统里，“来得及”本身就是正确性的一部分。

3. 闭环稳定性不只看平均延迟

更要看延迟抖动、tail latency 和感知 / 执行时钟同步：每步响应时间忽快忽慢会让动作轨迹不平滑，P95/P99 的偶发慢请求可能直接造成碰撞或任务失败，观测时间和动作执行时间错位则会让模型基于过期状态决策。

若平均延迟 80ms，但偶发 300ms 峰值，机器人会表现出：

时快时慢、局部动作抖动和路径不稳定。控制节奏被延迟峰值打乱后，执行器会不断修正过期动作，轨迹也会被迟到观测反复扰动。

因此部署时应监控：

$\text{P95}(L), \quad \text{P99}(L)$

而不只是平均延迟。

4. 安全约束：动作不能裸奔进执行器

实际部署里，模型动作一般不会直接下发，而会经过安全过滤器：

$a_t^{\text{safe}} = \Pi_{\mathcal{C}}(a_t)$

其中 $\Pi_{\mathcal{C}}$ 表示投影到安全集合。
安全集合 $\mathcal{C}$ 常包含关节角限制、速度限制、加速度限制、工作空间边界、自碰撞约束和人机安全距离。它们分别负责避免结构越界、碰撞风险、突然启停、伸出允许区域、机械臂自干涉，以及有人靠近时自动保守或停机。

直觉上，这层在说：

“模型可以提建议，但执行器只接受物理上和安全上允许的动作。”

5. 安全约束常见的数学形式

5.1 硬限幅

$u_{\min} \le u_t \le u_{\max}$

5.2 距离约束

若机器人与障碍物距离为 $d(x_t)$ ，则要求：

$d(x_t) \ge d_{\min}$

5.3 速度与加速度约束

$\|v_t\| \le v_{\max}, \qquad \|a_t\| \le a_{\max}$

这些约束很“土”，但在部署中极有价值，因为它们可解释、可验证、可审计。

图源：Do As I Can, Not As I Say: Grounding Language in Robotic Affordances，Figure 1。原论文图意：LLM 可能提出不接地气的建议；SayCan 用 value functions / affordances 约束语言模型，把高层语言规划落到机器人当前可执行的技能上。

图解：安全不只是限幅，还要判断“能不能做”

SayCan 这张图说明了 VLA 部署里的一个核心安全问题：语言模型可能给出听起来合理但机器人做不了、场景里不存在或当前不安全的动作。value function / affordance 的作用，是给每个候选技能加上“当前状态下可不可行”的分数。部署时，硬限幅负责防止动作越界；affordance 和任务状态机负责防止模型选择不合场景、不合能力或不合安全边界的动作。

6. 家庭收纳机器人为什么特别暴露问题

机器人要把玻璃杯放进柜子。
即使 VLA 认为“直接伸进去”最快，安全层仍要检查柜门是否真的打开、手爪速度是否过快、杯口高度是否会撞到层板或柜体边缘、周边易碎物是否需要额外安全余量。

这类场景难在家庭环境不规整、材质多样、人可能突然干预、目标物体脆弱。力控、路径和接管逻辑都必须比 demo 阶段更保守。

因此安全层往往比 demo 阶段更重要。

7. 低层控制器为什么不能被省掉

即使高层 VLA 已经输出了动作轨迹，系统通常还需要低层控制器负责轨迹跟踪、滤波、阻抗控制和姿态稳定，把高层轨迹转成连续、可执行、可接触的关节或末端控制。

否则模型输出的动作序列稍有离散跳变，执行器就会表现出抖动。

一个例子：夹起鸡蛋

高层 VLA 也许已经判断出“该去抓鸡蛋托盘里的左上角鸡蛋”。
但真正接近和闭合夹爪时，低层控制必须保证速度逐渐降低、接触力受控、姿态不抖，否则视觉和语义判断都对，鸡蛋还是会被捏碎或碰倒。

8. 人机共处场景必须额外保守

一旦工作空间中有人类出现，部署逻辑通常要加一层更高优先级约束：进入降速模式、扩大安全距离、必要时急停。它们给人体移动和传感器误差留余量，也避免风险超过阈值后继续执行模型意图。

这类规则通常不该交给纯学习模型自行决定，而应由显式安全机制强制执行。

9. 部署时的状态机也很重要

真实系统常会引入任务状态机，例如 观察 -> 接近 -> 预抓取 -> 接触 -> 搬运 -> 放置 -> 异常恢复。

这样做的好处是：

阶段约束更明确，控制策略可切换，异常处理也更清晰。接近、接触、搬运和放置需要的安全条件不同；失败发生在哪个阶段，也更容易记录、回放和修复。

纯端到端模型若没有这层结构，往往在异常恢复上非常脆弱。

10. 三个具体部署场景

10.1 家庭机器人收纳

重点是脆弱物体多、布局变化大、人类随时打断。因此要重视感知冗余、速度限制和安全状态机，用多视角、深度或触觉互相校验，并用显式规则管理接近、抓取、异常和接管。

10.2 仓储抓取

重点是吞吐要求高、误抓容忍度低。这里更强调实时性、轨迹一致性和失败后快速恢复：感知、规划和执行必须跟得上物流节奏，相似任务应产生稳定动作，抓空或掉落后也要能快速重新规划。

10.3 移动服务机器人

重点是人机共处、动态障碍和路径重规划。机器人要在公共空间中保持保守行为，及时响应行人、推车和门等动态对象，而不是硬走原计划。

这里延迟与安全过滤层的重要性会特别高。

11. 常见失败模式

11.1 离线成功率高，线上抖动严重

通常说明推理延迟不稳，或低层滤波和控制不足。平均速度够快但偶发慢步，会破坏控制节奏；模型输出没有被平滑、约束和跟踪好，也会让线上动作发抖。

11.2 模型很聪明，但总被安全层拦

这可能意味着输出分布与安全约束不匹配，或训练数据缺少约束样本。模型常提议越界、过快或不可达动作，本质上说明它没学过安全层真正允许的动作空间。

11.3 尾延迟导致偶发危险动作

偶发慢一步，在机器人系统里就足以造成碰撞或任务失败。

11.4 只做动作裁剪，不做语义级异常恢复

例如抓空以后，系统只会继续执行剩余动作，而不会重新观察和重规划。

12. 工程判断

VLA 模型越大，不代表实时控制越好。机器人系统必须把端到端成功率和 tail latency 一起衡量；真实部署通常需要“VLA + 低层控制器 + 安全规则 + 状态机”的组合；若任务涉及脆弱物体或人机共融，显式安全机制应始终高于模型意图。

13. 总结

VLA 部署真正考验的，不是模型会不会输出动作，而是它能否在延迟受限、物理受限、安全受限的现实世界里稳定动作。
训练解决的是“学不学得会”，部署解决的是“来不来得及、会不会出事、出了事能不能恢复”。
这一层不补齐，VLA 就很难从实验视频走向长期上线。

快速代码示例

import torch

def safety_project(action, prev_action, low, high, max_delta):
    a = torch.clamp(action, low, high)  # 执行器硬约束
    a = torch.clamp(a, prev_action - max_delta, prev_action + max_delta)
    return a

这段代码给出部署侧常见的动作安全投影：先做物理边界裁剪，再做步进变化约束。它能显著降低“单步异常动作”带来的风险，通常与状态机和接管逻辑一起使用。

工程收束

VLA 部署要同时看风险分级、接管策略、监控延迟、环境漂移和审计留痕。上线前至少要定义风险级别与动作上限，做回放、shadow 和实机演练，并让事故样本进入回流。离线评测只能判断基础能力；真正决定能不能部署的，是闭环链路在高价值场景里是否稳定、可停、可追溯。

Charles's Castle

VLM/VLA：部署与安全

1. 延迟预算：动作正确还不够，得来得及

2. 为什么大模型不一定更适合机器人闭环

一个直观例子：移动底盘避人

3. 闭环稳定性不只看平均延迟

4. 安全约束：动作不能裸奔进执行器

5. 安全约束常见的数学形式

5.1 硬限幅

5.2 距离约束

5.3 速度与加速度约束

6. 家庭收纳机器人为什么特别暴露问题

7. 低层控制器为什么不能被省掉

一个例子：夹起鸡蛋

8. 人机共处场景必须额外保守

9. 部署时的状态机也很重要

10. 三个具体部署场景

10.1 家庭机器人收纳

10.2 仓储抓取

10.3 移动服务机器人

11. 常见失败模式

11.1 离线成功率高，线上抖动严重

11.2 模型很聪明，但总被安全层拦

11.3 尾延迟导致偶发危险动作

11.4 只做动作裁剪，不做语义级异常恢复

12. 工程判断

13. 总结

快速代码示例

工程收束