思考探索:具身智能现状:VLA、数据工厂与真实闭环

思考探索:具身智能现状:VLA、数据工厂与真实闭环

Charles Lv7

具身智能现在最迷人的地方,也是最容易误判的地方,是 demo 看起来越来越像“机器人真的懂了”。但系统化梳理后的提醒很清楚:真正的问题不只是模型会不会看图出动作,而是它有没有任务状态、会不会拒绝无效指令、能不能从失败中恢复,数据是不是太干净,评测是不是只看了最终状态。

Hydraulic toy robot gripper

图源:Wikimedia Commons: Hydraulic toy robot arm gripper.jpg。即使是简单夹爪,也能暴露具身智能的核心难点:动作不是文本输出,而是接触、力、姿态、误差和恢复的连续闭环。

1. VLA 的第一阶段已经过去

早期 VLA 的叙事是:

1
图像 + 语言 -> 动作

这条线很重要,因为它把 VLM 的语义能力接到了机器人控制。但今天看,它已经不够了。真实系统里,机器人还需要回答:

  1. 当前任务是否有效;
  2. 当前动作是否会让未来更接近成功;
  3. 出错后能否恢复;
  4. 指令和场景冲突时是否会拒绝;
  5. 同一策略能否迁移到新环境、新对象、新机器人;
  6. 数据回流能否持续改善系统。

所以 VLA 的下一阶段更像:

1
异构数据 + 任务状态 + 动作块 + 世界模型 + 控制器 + 数据闭环

这也解释了为什么要同时看 GR-2、GR-3、Video Prediction Policy、GEN-0、Spirit、SpatialVLA、DepthVLA、X-VLA、RECAP 和 π0.5。它们不是彼此孤立的模型榜单,而是在补 VLA 的不同短板。

2. 当前发展的几个方向

异构数据协同训练

π0.5 把 VLA 泛化问题写得很具体:机器人要在没见过的新家庭里完成清理、收纳、整理等长任务,就必须同时吸收 web 语义、机器人动作数据、跨 embodiment 数据、高层子任务标签和人类 verbal instruction。

这说明开放世界泛化不是“多收一些目标机器人数据”就能解决。目标机器人数据负责落地,web 和跨机器人数据负责语义和技能迁移,高层子任务标签负责长任务分解。

任务状态和拒绝能力

GR-3 的任务状态设计很关键:in progress / terminate / invalid。我认为这是 VLA 从 demo 走向产品的分水岭之一。

没有 invalid,机器人面对不存在的目标会乱试;没有 terminate,成功后还可能继续动作;没有 in progress,长任务容易过早停止。拒绝能力不是“消极”,而是物理世界里的安全能力。

视频预测和世界模型

GR-2 和 Video Prediction Policy 说明,视频模型可以提供动态先验。机器人在动作前能预测未来视觉变化,就能更接近“先想后做”。但视频预测必须和动作、控制器和评测绑定,否则它只是好看的想象。

空间和深度

SpatialVLA 和 DepthVLA 的价值,是把 VLA 拉回空间。真实操作里,物体距离、遮挡、可达性和接触位置经常比类别名更重要。没有 3D 结构,VLA 很容易在漂亮的语义理解后输给 2 厘米的定位误差。

从失败中学习

RECAP / π0.6 路线把问题讲得很直接:如果只模仿过去行为,模型会继续犯过去的错。自主经验、专家纠正、稀疏奖励和价值函数,正在把 VLA 从行为克隆推向真实闭环改进。

3. 五个扎实判断

这些“发现”可以沉淀为五条长期原则。

第一,指令跟随不能只看语言能力。

有些模型可能只是过拟合图像和场景常见动作,语言指令一变就露出问题。评测时必须区分 Flat Setting 和 Instruction-Following Setting。

第二,任务状态是刚需。

具身系统必须知道任务是否有效、是否完成、是否还在执行。否则长任务和开放指令会变得危险。

第三,跨领域预训练加专用微调仍是主线。

先用大规模异构数据学通用能力,再在目标场景收集高质量数据微调,然后闭环评测。这个顺序比“从零为每个任务训练一个模型”更有生命力。

第四,模型可能还不够大。

GEN-0 的 7B 阈值观察未必能直接泛化到所有团队,但它提醒我们:物理常识和灵巧动作可能比想象中更吃模型容量。具身智能并不是小模型天然够用的领域。

第五,数据太干净会限制泛化。

真实世界不总是整洁桌面、固定顺序和成功演示。脏数据、失败、恢复、干扰物、无效任务和连续长流程,都是模型进入真实世界前必须见过的东西。

4. 数据工厂正在成为核心竞争力

过去机器人学习的瓶颈是没有数据。现在变化正在发生:DROID 这种 in-the-wild 数据集、Open X-Embodiment 这种跨机器人数据混合、以及 GEN-0 这种公司级数据工厂,都说明具身智能正在走向数据工程化。

但“数据工厂”不只是更多遥操作员。它至少包括:

  1. 数据 schema 和控制模式统一;
  2. 任务标签、阶段标签和失败原因标注;
  3. 多机器人、多相机、多场景采集;
  4. 失败和人工纠正回流;
  5. 离线 RL 或价值函数挖掘坏经验;
  6. 真实闭环 A/B 评测。

真正贵的不是拍下动作,而是知道这条动作数据在训练里应该扮演什么角色。

5. 具身智能真正的拐点是什么

我不认为拐点会来自单个“万能机器人模型”。更可能来自几个系统能力同时成熟:

能力 为什么是拐点
任务状态建模 机器人能判断何时继续、何时停止、何时拒绝
世界模型前瞻 动作执行前能比较后果和风险
失败恢复数据 错误不再只是丢弃样本,而是学习材料
跨 embodiment 表示 不同机器人数据能互相增益
仿真到真实评测链 快速生成 hard case,并用真机验证
安全控制器 模型输出不会直接变成危险动作

当这些能力接起来时,具身智能会从“任务 demo”变成“可持续改善的物理 agent”。

6. 我对当前路线的看法

具身智能现在最需要少一点单模型神话,多一点系统诚实。一个好看的 VLA demo 很有价值,但我们还应该追问:

  1. 它能不能处理无效指令;
  2. 它的成功率是否在新环境中成立;
  3. 它有没有失败恢复;
  4. 它的数据是否包含脏场景和长流程;
  5. 它的动作是否经过安全控制器;
  6. 它的 success checker 有没有漏掉过程风险。

这条思考方向是对的:不要把具身智能写成论文名清单,而要关注数据、任务状态、动作接口、控制器、评测和回流。机器人不会因为模型会说话就变可靠;它会因为每一次失败都被系统吸收,下一次少犯一点错,而逐步变可靠。

参考资料

  • Title: 思考探索:具身智能现状:VLA、数据工厂与真实闭环
  • Author: Charles
  • Created at : 2026-02-09 09:00:00
  • Updated at : 2026-02-09 09:00:00
  • Link: https://charles2530.github.io/2026/02/09/ai-files-thinking-exploration-embodied-ai-status-and-real-world-loop/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments