论文专题讲解：GR-3：少样本长时程 VLA

论文信息

论文：GR-3 Technical Report
链接：arXiv:2507.15493
项目页：ByteDance Seed GR-3
关键词：VLA、Qwen2.5-VL、flow matching、Action DiT、task status、few-shot human trajectories、ByteMini

GR-3 是一篇很适合放进具身智能专题的技术报告，因为它把 VLA 从“看图出动作”继续推向三个更真实的问题：严格语言跟随、少样本新物体适配，以及长时程/灵巧任务执行。

它最值得记的一点是：VLA 不只要输出 action chunk，还要知道任务是在进行、结束，还是根本无效。

论文位置

GR-3 接在 π0 / π0.5、GR-2 之后看最顺。GR-2 重点是视频知识迁移；π0.5 重点是异构数据和高层子任务；GR-3 更强调任务状态、VLM co-training、few-shot human trajectory adaptation 和真实双手移动机器人部署。

Figure source: GR-3 Technical Report, Figure 1. 原论文图意：展示 GR-3 在新物体、新环境、抽象指令、长时程任务和灵巧衣物操作上的能力。

模型结构

GR-3 使用 Qwen2.5-VL-3B-Instruct 作为 VLM 主干，并接 flow matching Action DiT。总规模约 4B parameters。

Figure source: GR-3 Technical Report, Figure 3. 原论文图意：GR-3 同时在 robot trajectories 和 vision-language data 上 co-train；左侧用 flow-matching objective 训练动作，右侧用 next-token prediction 保持视觉语言能力。

Component	GR-3 choice	Why it matters
VLM backbone	Qwen2.5-VL-3B-Instruct	保留强视觉语言理解和 grounding
Action model	flow matching Action DiT	输出连续 action chunk
Conditioning	current robot state + VLM KV cache	让动作生成利用 VLM 表征
Action sequence	K-length action chunk as tokens	建模短时动作依赖
Attention	causal mask in Action DiT	保持动作块内部时间结构
Efficiency	Action DiT has about half the VLM layers and uses later-layer KV cache	降低推理成本
Stability	extra RMSNorm after attention and FFN linear layers	提升训练稳定性和 instruction following

GR-3 不只是把 VLM 输出接到动作头。它让动作 DiT 读取 VLM 后半层 KV cache，并通过 flow matching timestep / AdaLN 等方式生成动作块。这让视觉语言理解可以更直接地调制动作生成。

任务状态：in progress / terminate / invalid

GR-3 的一个关键设计，是把 task status 作为辅助监督的附加动作维度：

Status	Meaning	System behavior
`in progress`	task is being executed	continue rolling out action chunks
`terminate`	task has been successfully completed	stop and return to safe posture
`invalid`	instruction cannot be completed under current observation	refuse execution or ask for clarification

论文指出，策略可能利用多视角里的虚假相关性，而不真正关注语言条件。加入 task status 后，模型被迫理解指令和当前场景是否匹配。训练时会随机把语言指令替换成无效指令，并让模型预测 invalid，但不监督动作块其他维度。

这对真实机器人非常关键：桌上没有刀时，“put the knife into the basket” 不应该触发机器人乱抓；它应该判断任务无效。

训练 recipe

GR-3 训练由三类数据共同构成：

robot trajectory data for imitation learning；
web-scale vision-language data for co-training；
few-shot human trajectory data from VR for adaptation。

Figure source: GR-3 Technical Report, Figure 4. 原论文图意：展示 robot trajectory data、vision-language data 和 human trajectory data 的收集与 co-training 配方。

Robot trajectory + vision-language co-training

GR-3 把机器人轨迹和视觉语言数据联合训练。VL 数据覆盖 image captioning、visual question answering、image grounding 和 interleaved grounded image captioning。这样做的目的不是让机器人“会聊天”，而是让动作 DiT 在动作预测时仍能利用 VLM 的开放视觉语言能力。

Few-shot human trajectory adaptation

论文用 PICO 4 Ultra Enterprise 收集人类轨迹。PDF 笔记里记录了一个很实用的数字：人类轨迹可达到约 450 trajectories/hour，高于机器人遥操作约 250 trajectories/hour。人类轨迹缺少腕部视图、关节状态和夹爪状态，因此训练时填充空白腕部图像，并用手部轨迹监督。

这个设计说明：新物体适配未必只能重收昂贵机器人轨迹，人类 VR 轨迹可以作为快速适配信号。

Training tricks

Trick	Role
Extra RMSNorm	稳定 Action DiT 训练，并显著提升 instruction following
Multi-sampled flow timesteps per VLM forward	加速训练，降低重复 VLM 前向开销
Co-training with VL and robot data	保住视觉语言泛化，同时学习动作
Task status auxiliary dimension	学会拒绝无效任务和判断终止

ByteMini 机器人系统

GR-3 部署在 ByteMini 双手移动机器人上。

Figure source: GR-3 Technical Report, Figure 5. 原论文图意：展示 ByteMini 的机器人规格、多相机视角和 wrist sphere joint 的运动范围。

论文强调全身顺应性控制和全身遥操作。策略 rollout 时，GR-3 用预测的 action chunk 控制 19 DoF，并加入 pure pursuit 和 trajectory optimization 以减少抖动、保持路径点和轨迹之间的平滑过渡。

实验：从抓取到长时程桌面清理

GR-3 的实验覆盖三类任务。

Generalizable pick-and-place

训练数据约 35K robot trajectories，覆盖 101 objects，总计约 69 hours。Unseen Objects 设置下，对 45 个未见对象每个最多收集 10 条人类轨迹；450 条人类轨迹总时长约 30 分钟，再 co-train 20K steps。

Figure source: GR-3 Technical Report, Figure 7. 原论文图意：展示 GR-3 在 basic、unseen environments、unseen objects 和 few-shot human trajectory settings 下的 pick-and-place 结果。

Long-horizon table bussing

这部分最能体现 task status 的价值。任务包括 Flat Setting 和 Instruction-Following Setting；invalid trials 要求模型在 10 seconds 内不操纵任何对象才算成功。论文记录该任务约 101 hours 机器人轨迹。

Figure source: GR-3 Technical Report, Figure 8. 原论文图意：展示 table bussing 的任务设置、Flat / Instruction-Following / Invalid settings 和实验结果。

Dexterous cloth manipulation

衣物任务约 116 hours 机器人轨迹，要求模型处理柔体、衣架和晾衣架等复杂接触。

Figure source: GR-3 Technical Report, Figure 10. 原论文图意：展示衣物操作任务的阶段拆解、成功/失败流向和不同设置下的结果。

训练细节要点

Detail	GR-3 choice	Why it matters
VLM backbone	Qwen2.5-VL-3B-Instruct	强视觉语言 grounding
Total size	about 4B parameters	比早期小 VLA 更接近 foundation policy
Action objective	flow matching Action DiT	连续 action chunk 生成
Task status	in progress / terminate / invalid	让模型学会停止和拒绝
Few-shot adaptation	PICO VR human trajectories	快速适配新物体和新设置
Pick-and-place data	35K trajectories, 101 objects, 69 hours	泛化抓取基础
Table bussing data	about 101 hours	长时程任务和 invalid refusal
Cloth data	about 116 hours	柔体和灵巧操作
Stabilization	RMSNorm after attention / FFN linear	改善训练稳定和指令跟随

局限与启发

GR-3 很强，但它也暴露了 VLA 走向真实机器人的成本：需要机器人数据、VL co-training、人类轨迹适配、全身控制器、任务状态标签和大量真实评测。模型本身只是系统的一层。

它最值得复用的工程经验是三条：

任务状态要进入训练和部署；
人类轨迹可以作为新设置快速适配桥梁；
VLA action chunk 必须接控制器和平滑优化，不能直接当电机命令。

Charles's Castle

论文专题讲解：GR-3：少样本长时程 VLA

论文位置

模型结构

任务状态：in progress / terminate / invalid

训练 recipe

Robot trajectory + vision-language co-training

Few-shot human trajectory adaptation

Training tricks

ByteMini 机器人系统

实验：从抓取到长时程桌面清理

Generalizable pick-and-place

Long-horizon table bussing

Dexterous cloth manipulation

训练细节要点

局限与启发

参考链接