论文专题讲解:RT-2:把 web-scale VLM 变成会输出动作的 VLA

论文专题讲解:RT-2:把 web-scale VLM 变成会输出动作的 VLA

Charles Lv8
论文信息

论文题名: RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control。

作者: Anthony Brohan、Noah Brown、Justice Carbajal、Yevgen Chebotar、Xi Chen、Krzysztof Choromanski、Tianli Ding、Danny Driess、Avinava Dubey、Chelsea Finn 等(共 54 人)。

机构: 未在公开元数据中稳定解析;以 arXiv/PDF 或官方页 affiliation block 为准。

时间 / 主题: 2023-07;具身智能。

arXiv / 官方报告: arXiv:2307.15818;官方材料:robotics-transformer2.github.io/

GitHub / 项目: GitHub:未找到官方链接;项目页:robotics-transformer2.github.io/

元数据来源与核验口径: 来源:arXiv官方 / 项目材料;Checked Date:2026-06-04;Repro Status:Paper / official materials reviewed, independent reproduction not claimed。

这篇回答的问题。 如何理解“RT-2”背后的核心机制、适用边界和下一步阅读路径。

RT-2 的核心不是“机器人也用了大模型”,而是一个更具体的问题:互联网图文数据里有大量视觉语义知识,机器人数据却少、贵、分布窄;能不能把 VLM 已经学到的物体、关系、类别和常识,通过一个动作接口迁移到真实机器人控制?

论文给出的接口是 vision-language-action model:输入仍然是图像和语言指令,输出不再只是文本,而是一串代表机器人动作的 token。RT-2 最值得读懂的地方就在这里:它不是让语言模型直接“理解物理”,而是把动作离散化成模型可以生成的符号,再用真实机器人数据把这些符号绑定到控制后果上。

论文真正解决的问题

RT-1 已经证明 Transformer 可以在大量真实机器人示范上学习多任务策略,但它主要从机器人数据里学。RT-2 往前走了一步:从 PaLI-X、PaLM-E 这类预训练 VLM 出发,把原来的 web vision-language 能力保留下来,再加入机器人 trajectory 数据,让同一个模型既能回答视觉语言任务,也能输出机器人动作。

这个目标听起来像“多加一种输出”,实际有三个难点。第一,动作是连续控制量,语言模型只能生成 token,需要把位姿、旋转、夹爪和终止信号转成离散序列。第二,机器人控制要求每一步都输出有效动作,不能像聊天一样生成任意词。第三,模型如果只在机器人数据上微调,很容易忘掉 web 预训练学到的语义概念,所以训练 recipe 必须同时保留 web data 和 robot data。

从主图看 RT-2 的桥在哪里

RT-2 overall 原论文图

图源:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,Figure 1。原图表达 web-scale vision-language data 和 robot trajectory data 共同训练,模型最终输出 action token。本站读法是先看右侧输出:RT-2 的关键桥梁不是多模态输入,而是把动作放进 VLM 的 token 生成接口。

这张图的读法要从“输出”开始。普通 VLM 输出 caption、答案或推理文本;RT-2 输出动作。于是训练样本可以写成类似 VQA 的格式:

1
2
Q: what action should the robot take to [task instruction]?
A: terminate dx dy dz drx dry drz gripper

这里的 A 看起来是一串文本,但每个位置都对应机器人执行空间里的量。这个设计让 RT-2 可以沿用 next-token prediction 框架,同时把机器人动作接到同一个 decoder 上。

动作 tokenization:把连续控制量压进 256 个 bin

RT-2 沿用 RT-1 的动作离散化思想。一个动作包含 6-DoF 末端执行器位移、夹爪伸展和一个 episode termination 命令。除 termination 以外的连续维度被均匀离散成 256 个 bin。可以把单步动作写成:

at=[ct,Δxt,Δyt,Δzt,Δrtx,Δrty,Δrtz,gt]a_t = \big[ c_t,\Delta x_t,\Delta y_t,\Delta z_t, \Delta r^x_t,\Delta r^y_t,\Delta r^z_t,g_t \big]

其中 ctc_t 是终止命令,gtg_t 是夹爪相关控制量,其余是位姿增量。连续维度会先映射到整数 bin:

btd=255clip(atd,ld,ud)ldudldb^d_t = \left\lfloor 255 \cdot \frac{\mathrm{clip}(a^d_t,l_d,u_d)-l_d}{u_d-l_d} \right\rceil

然后把这些 bin 写成模型可以生成的 token 序列。论文里 PaLI-X 恰好有整数 token,可以直接把 bin 关联到对应整数;PaLM-E 没有这种方便表示,就覆盖 256 个低频 token 作为动作词表。这个细节很重要,因为它说明 action token 不是自然语言里的“动作描述”,而是机器人控制接口里的离散数值。

动作 tokenization 带来两个收益:训练接口统一,VLM 可以像预测文本一样预测动作;输出空间受控,部署时可以约束模型只生成合法动作 token。但它也带来代价:动作精度受 bin 数和动作范围影响,控制频率受大模型推理延迟影响,坐标系和低层 controller 仍然决定真实执行效果。

Co-fine-tuning:为什么不能只拿机器人数据微调

RT-2 的训练不是简单地把 VLM 拿来在 robot dataset 上继续训。论文强调 co-fine-tuning:训练 batch 里同时保留原始 web vision-language data 和机器人动作数据。一个简化的目标可以写成:

L=E(I,x,a)Drobot[jlogpθ(yjI,x,y<j)]+λE(I,x,t)Dweb[LVLM]\mathcal{L} = \mathbb{E}_{(I,x,a)\sim D_{\text{robot}}} \left[-\sum_j \log p_\theta(y_j \mid I,x,y_{<j})\right] + \lambda\, \mathbb{E}_{(I,x,t)\sim D_{\text{web}}} \left[\mathcal{L}_{\text{VLM}}\right]

第一项让模型学会在机器人图像和任务指令下输出动作 token;第二项继续维护 web-scale VLM 的视觉语言能力。这里的关键不是公式形式,而是训练信号的分工:robot data 绑定动作后果,web data 保住语义概念。论文的 ablation 也说明,co-fine-tuning 在泛化上优于只用 robot data 微调,而从零训练大模型表现很差。

这解释了为什么 RT-2 能做一些机器人数据里没直接出现过的语义任务。它迁移的主要是“看懂物体、类别、关系、标志、人脸或简单推理”的能力,而不是凭空学会新的运动技能。机器人没有示范过擦桌子、折毛巾、复杂工具使用,web pretraining 不会自动变成稳定 motor skill。

输出约束和实时控制:系统问题不能被模型名盖住

在普通 VLM 里,输出一个罕见词或多写一句解释通常不是灾难;在机器人控制里,一个非法动作 token 或延迟过大的动作都可能破坏任务状态。RT-2 因此在机器人动作任务上约束输出词表,只允许采样合法 action tokens。

另一个现实问题是推理频率。RT-2 使用的模型可以达到 55B 参数量级,论文通过多 TPU 云服务支持真实机器人闭环控制;55B PaLI-X 版本约 1-3 Hz,较小的 5B 版本约 5 Hz。这个频率提醒我们:RT-2 的动作不是高频电机控制,它更像低频视觉语言策略,再由机器人低层控制器执行和稳定化。

所以 RT-2 的系统边界必须写清楚:VLA 输出动作 token,不等于它替代了安全限幅、坐标变换、控制器、碰撞保护、reset 机制和人工接管。

泛化实验:seen 分数不是论文主张的全部

RT-2 generalization 原论文图

图源:RT-2,Figure 4。原图比较 RT-2 和 baselines 在 seen tasks、unseen objects、unseen backgrounds、unseen environments 上的表现。本站读法是把 seen 和 unseen 分开:seen tasks 主要检验机器人技能学习,unseen categories 才更接近 web knowledge transfer 的核心 claim。

论文在真实机器人上做了大约 6000 条 evaluation trajectories。seen tasks 延续 RT-1 的任务集合,超过 200 个任务;unseen evaluations 关注新物体、新背景和新环境,超过 280 个任务。图 4 和附录表格显示,RT-2 在 seen tasks 上和 RT-1 接近,但在 unseen average 上明显更强:RT-2-PaLI-X-55B 和 RT-2-PaLM-E-12B 的 unseen average 都约为 62,而 RT-1 约为 32、MOO 约为 35。

这个结果的含义不是“模型更大所以什么都会”,而是:web-scale VLM 的语义和视觉概念,在动作 token 接口和机器人示范绑定之后,能帮助机器人把已学过的操作技能部署到更多未见条件里。技能本身仍然来自 robot data;泛化能力则来自 web data 与 robot data 的组合。

Emergent eval:迁移的是语义,不是新动作物理

RT-2 emergent examples

图源:RT-2,Figure 2。原图展示 RT-2 处理语义理解、关系判断和人类识别相关指令的例子。本站读法是把这些例子当作“语义迁移”证据,而不是当作所有运动能力都泛化的证据。

RT-2 把 emergent capabilities 分成三类:symbol understanding、reasoning、human recognition。比如“把苹果移动到同色杯子旁边”需要视觉关系和颜色匹配;“move X near the sum of two plus one”需要简单数学;“把可乐罐移给戴眼镜的人”需要人类属性识别。附录表格里,RT-2-PaLI-X-55B 的 emergent average 约 60,RT-1 约 17,VC-1 约 11。

这里必须保持克制。emergent 不是说机器人自动学会新运动,而是说 VLM 的语义概念能影响动作选择。论文自己也写得很清楚:transfer 不应被期待为产生新的 robotic motions,而更可能迁移 semantic and visual concepts。

RT-2 emergent ablation 原论文图

图源:RT-2,Figure 6。原图左侧比较 emergent skill eval,右侧做模型大小和训练策略 ablation。本站读法是看两个因果线索:更大模型带来更强泛化,co-fine-tuning 比只用机器人数据微调更能保留 web 概念。

图 6 右侧的 ablation 很适合判断“到底是哪里有用”。5B 从零训练在 unseen average 上很低;5B 只微调和 5B co-fine-tuning 有改进;55B co-fine-tuning 最强。这说明 RT-2 的收益来自三件事叠加:预训练 VLM、动作接口、机器人和 web 数据共训练。只拿其中一个词做口号,都会漏掉机制。

Chain-of-thought:计划文本能帮语义分解,但不是完整规划器

RT-2 chain-of-thought rollouts

图源:RT-2,Figure 7。原图展示 RT-2-PaLM-E 在 chain-of-thought prompting 下先生成中间计划,再输出动作相关行为。本站读法是把它看成 VLM 语义分解能力接入动作接口,而不是把它等同于有搜索、有约束、有失败恢复的 classical planner。

CoT 对 RT-2 的意义在于让模型先把指令拆成语义步骤,再落到动作选择。例如“我困了,拿一个能帮我的饮料”可以先推到能量饮料,再执行拿取。这个能力很有启发,但它仍然受限于单步/短程动作接口、训练数据覆盖和环境可观测性。复杂长时任务仍需要显式状态、记忆、检查点、失败恢复和安全约束。

失败图比成功图更应该认真读

RT-2 failure dynamics

图源:RT-2,Figure 9。原图展示模型在未见物体 dynamics 上失败的真实案例。本站读法是把失败归因到动作后果和物理交互:模型可能知道物体是什么,也会选择合理目标,但不一定掌握这个物体如何被推、滚、抓或稳定放置。

论文列出的失败边界包括:按具体部件抓取物体,比如抓把手;机器人数据里没有的新动作类型,比如用毛巾擦拭或工具使用;精细灵巧动作,比如折毛巾;需要多层间接推理的长链任务。这些边界和 RT-2 的主张并不矛盾,反而说明它真正迁移的是视觉语义,而物理技能仍需要真实机器人数据和控制接口来学习。

阅读结论

RT-2 的知识含量集中在三个接口。第一,action tokenization 把连续动作变成 VLM 可以生成的离散 token,但也引入精度、频率和控制边界。第二,co-fine-tuning 同时保留 web data 和 robot data,让模型既不忘语义,也能把语义落到动作。第三,评测必须拆成 seen、unseen 和 emergent:seen 检验已有机器人技能,unseen 检验视觉语义迁移,emergent 更偏概念和简单推理,不代表新运动技能凭空出现。

看后续 VLA 论文时,可以沿着 RT-2 这条线追问:动作到底输出在哪一层?连续控制量如何离散或 chunk?web data 和 robot data 怎样混合?模型输出后是否有低层控制器和安全约束?评测有没有把语义泛化、物理技能泛化和长时任务泛化分开?

外部精读

相关阅读与下一步

  • Title: 论文专题讲解:RT-2:把 web-scale VLM 变成会输出动作的 VLA
  • Author: Charles
  • Created at : 2025-10-01 09:00:00
  • Updated at : 2025-10-01 09:00:00
  • Link: https://charles2530.github.io/2025/10/01/ai-files-paper-deep-dives-embodied-ai-rt2/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments