思考探索:具身智能现状:VLA、数据工厂与真实闭环
具身智能现在最迷人的地方,也是最容易误判的地方,是 demo 看起来越来越像“机器人真的懂了”。但系统化梳理后的提醒很清楚:真正的问题不只是模型会不会看图出动作,而是它有没有任务状态、会不会拒绝无效指令、能不能从失败中恢复,数据是不是太干净,评测是不是只看了最终状态。

图源:Wikimedia Commons: Hydraulic toy robot arm gripper.jpg。即使是简单夹爪,也能暴露具身智能的核心难点:动作不是文本输出,而是接触、力、姿态、误差和恢复的连续闭环。
1. VLA 的第一阶段已经过去
早期 VLA 的叙事是:
1 | 图像 + 语言 -> 动作 |
这条线很重要,因为它把 VLM 的语义能力接到了机器人控制。但今天看,它已经不够了。真实系统里,机器人还需要回答:
- 当前任务是否有效;
- 当前动作是否会让未来更接近成功;
- 出错后能否恢复;
- 指令和场景冲突时是否会拒绝;
- 同一策略能否迁移到新环境、新对象、新机器人;
- 数据回流能否持续改善系统。
所以 VLA 的下一阶段更像:
1 | 异构数据 + 任务状态 + 动作块 + 世界模型 + 控制器 + 数据闭环 |
这也解释了为什么要同时看 GR-2、GR-3、Video Prediction Policy、GEN-0、Spirit、SpatialVLA、DepthVLA、X-VLA、RECAP 和 π0.5。它们不是彼此孤立的模型榜单,而是在补 VLA 的不同短板。
2. 当前发展的几个方向
异构数据协同训练
π0.5 把 VLA 泛化问题写得很具体:机器人要在没见过的新家庭里完成清理、收纳、整理等长任务,就必须同时吸收 web 语义、机器人动作数据、跨 embodiment 数据、高层子任务标签和人类 verbal instruction。
这说明开放世界泛化不是“多收一些目标机器人数据”就能解决。目标机器人数据负责落地,web 和跨机器人数据负责语义和技能迁移,高层子任务标签负责长任务分解。
任务状态和拒绝能力
GR-3 的任务状态设计很关键:in progress / terminate / invalid。我认为这是 VLA 从 demo 走向产品的分水岭之一。
没有 invalid,机器人面对不存在的目标会乱试;没有 terminate,成功后还可能继续动作;没有 in progress,长任务容易过早停止。拒绝能力不是“消极”,而是物理世界里的安全能力。
视频预测和世界模型
GR-2 和 Video Prediction Policy 说明,视频模型可以提供动态先验。机器人在动作前能预测未来视觉变化,就能更接近“先想后做”。但视频预测必须和动作、控制器和评测绑定,否则它只是好看的想象。
空间和深度
SpatialVLA 和 DepthVLA 的价值,是把 VLA 拉回空间。真实操作里,物体距离、遮挡、可达性和接触位置经常比类别名更重要。没有 3D 结构,VLA 很容易在漂亮的语义理解后输给 2 厘米的定位误差。
从失败中学习
RECAP / π0.6 路线把问题讲得很直接:如果只模仿过去行为,模型会继续犯过去的错。自主经验、专家纠正、稀疏奖励和价值函数,正在把 VLA 从行为克隆推向真实闭环改进。
3. 五个扎实判断
这些“发现”可以沉淀为五条长期原则。
第一,指令跟随不能只看语言能力。
有些模型可能只是过拟合图像和场景常见动作,语言指令一变就露出问题。评测时必须区分 Flat Setting 和 Instruction-Following Setting。
第二,任务状态是刚需。
具身系统必须知道任务是否有效、是否完成、是否还在执行。否则长任务和开放指令会变得危险。
第三,跨领域预训练加专用微调仍是主线。
先用大规模异构数据学通用能力,再在目标场景收集高质量数据微调,然后闭环评测。这个顺序比“从零为每个任务训练一个模型”更有生命力。
第四,模型可能还不够大。
GEN-0 的 7B 阈值观察未必能直接泛化到所有团队,但它提醒我们:物理常识和灵巧动作可能比想象中更吃模型容量。具身智能并不是小模型天然够用的领域。
第五,数据太干净会限制泛化。
真实世界不总是整洁桌面、固定顺序和成功演示。脏数据、失败、恢复、干扰物、无效任务和连续长流程,都是模型进入真实世界前必须见过的东西。
4. 数据工厂正在成为核心竞争力
过去机器人学习的瓶颈是没有数据。现在变化正在发生:DROID 这种 in-the-wild 数据集、Open X-Embodiment 这种跨机器人数据混合、以及 GEN-0 这种公司级数据工厂,都说明具身智能正在走向数据工程化。
但“数据工厂”不只是更多遥操作员。它至少包括:
- 数据 schema 和控制模式统一;
- 任务标签、阶段标签和失败原因标注;
- 多机器人、多相机、多场景采集;
- 失败和人工纠正回流;
- 离线 RL 或价值函数挖掘坏经验;
- 真实闭环 A/B 评测。
真正贵的不是拍下动作,而是知道这条动作数据在训练里应该扮演什么角色。
5. 具身智能真正的拐点是什么
我不认为拐点会来自单个“万能机器人模型”。更可能来自几个系统能力同时成熟:
| 能力 | 为什么是拐点 |
|---|---|
| 任务状态建模 | 机器人能判断何时继续、何时停止、何时拒绝 |
| 世界模型前瞻 | 动作执行前能比较后果和风险 |
| 失败恢复数据 | 错误不再只是丢弃样本,而是学习材料 |
| 跨 embodiment 表示 | 不同机器人数据能互相增益 |
| 仿真到真实评测链 | 快速生成 hard case,并用真机验证 |
| 安全控制器 | 模型输出不会直接变成危险动作 |
当这些能力接起来时,具身智能会从“任务 demo”变成“可持续改善的物理 agent”。
6. 我对当前路线的看法
具身智能现在最需要少一点单模型神话,多一点系统诚实。一个好看的 VLA demo 很有价值,但我们还应该追问:
- 它能不能处理无效指令;
- 它的成功率是否在新环境中成立;
- 它有没有失败恢复;
- 它的数据是否包含脏场景和长流程;
- 它的动作是否经过安全控制器;
- 它的 success checker 有没有漏掉过程风险。
这条思考方向是对的:不要把具身智能写成论文名清单,而要关注数据、任务状态、动作接口、控制器、评测和回流。机器人不会因为模型会说话就变可靠;它会因为每一次失败都被系统吸收,下一次少犯一点错,而逐步变可靠。
参考资料
- Title: 思考探索:具身智能现状:VLA、数据工厂与真实闭环
- Author: Charles
- Created at : 2026-02-09 09:00:00
- Updated at : 2026-02-09 09:00:00
- Link: https://charles2530.github.io/2026/02/09/ai-files-thinking-exploration-embodied-ai-status-and-real-world-loop/
- License: This work is licensed under CC BY-NC-SA 4.0.