如果主线是 世界模型的高效训练技术 ,VLM/VLA 不应只是前置知识,而应该被看成世界模型训练的数据接口、状态接口和验证接口。它们分别回答:视觉语言状态怎么来,动作怎么来,失败怎么回流,闭环收益怎么验证。 这页先回答“VLM/VLA 与世界模型高效训练接口”在「VLM/VLA」里的位置:它解决什么局部问题,依赖哪些前
-
VLM/VLA:视觉 Tokenizer、连接器与信息瓶颈
VLM/VLA 的第一个工程问题不是“模型够不够大”,而是视觉信息如何进入语言模型或动作模型。图像 patch、视频帧、3D 点云、深度图和相机外参都不能原样无限塞进上下文。必须先把视觉压成 token、latent 或查询结果,再交给后续模型消费。 这页先回答“视觉 Tokenizer、连接器与信息瓶颈”在「VLM/
-
VLM/VLA:视频表征、状态记忆与长时序压缩
VLM 从图片开始,世界模型却必须处理时间。对 VLA 和世界模型来说,视频不是很多张图片的拼接,而是状态如何随动作、接触、遮挡和环境变化而演化。 这页先回答“视频表征、状态记忆与长时序压缩”在「VLM/VLA」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先分清 token、em
-
VLM/VLA:多模态评测与失败模式
VLM/VLA 的评测不能只看一个总分。静态图文问答、视频理解、动作执行、闭环恢复和世界模型预测,其实对应完全不同的失败方式。一个系统可能看图说得很好,却在坐标、时序、动作和安全上不可靠。 这页先回答“多模态评测与失败模式”在「VLM/VLA」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。
-
VLM/VLA:架构:视觉表征、连接器与记忆
VLM 的第一件事不是“让 LLM 看到图片”,而是把图片变成一串模型能处理的 token,再把这些 token 和语言对齐。若继续走向 VLA 和世界模型,这些 token 还要保留动作、接触、遮挡和时间变化。 这页先回答“VLM 架构:视觉表征、连接器与记忆”在「VLM/VLA」里的位置:它解决什么局部问题,依赖哪
-
VLM/VLA:部署与安全
VLA 训练跑通,只能说明模型在离线数据上学会了某种视觉到动作映射。 真正难的是部署 : 机器人要在真实硬件、实时闭环、存在人类和脆弱物体的环境里运行,任何一个环节慢一点、抖一点、错一点,都可能从“能演示”变成“不可上线”。 这页先回答“VLA 部署与安全”在「VLA」里的位置:它解决什么局部问题,依赖哪些前置,最后会
-
VLM/VLA:数据与策略学习
这一页关注的是 VLA 最硬的一层问题:模型不只是“看懂”世界,而是要把视觉和语言最终变成可执行动作。 因此它和普通 VLM 的区别是,错误不只会体现在回答上,还会直接体现在碰撞、抓空、卡住、抖动、超时上。 这页先回答“VLA 数据与策略学习”在「VLA」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或
-
VLM/VLA:闭环恢复与失败分析
很多 VLA 演示最容易忽略的一点是:机器人之所以看起来聪明,往往不是因为它从不犯错,而是因为它在犯错后还能继续完成任务。真实环境里的误差是常态,物体会滑、遮挡会发生、指令会歧义、工具会卡住、相机会偏一点。如果系统没有闭环恢复能力,再强的离线平均成功率也很难支撑部署。 这页先回答“VLA 闭环恢复与失败分析”在「VLA
-
VLM/VLA:评测与数据引擎
VLA 真正难的地方,不只是模型结构,而是数据非常贵、benchmark 很容易和真实部署脱节、离线成功不代表实机稳定。 这页先回答“VLA 评测与数据引擎”在「VLA」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先补 VLM/VLA 符号、动作表示和基础评测口径,再看数据与部署
-
VLM/VLA:动作表示与控制接口
VLA 之所以难,不只是因为感知复杂,还因为“动作”本身不是一个天然统一的对象。 同样一句指令“把杯子放到左边”,在不同系统里可能被表示成末端位姿增量、关节角命令、离散动作 token、未来动作块、子目标状态,或技能标识 / 潜在代码。 这页先回答“动作表示与控制接口”在「VLA」里的位置:它解决什么局部问题,依赖哪些