思考探索:世界模型 Infra:从模型谱系到物理 AI 工程栈

思考探索:世界模型 Infra:从模型谱系到物理 AI 工程栈

Charles Lv8

这篇回答的问题。 如果不再只问“哪个模型是 world model”,而是问“什么基础设施能持续训练、评测、部署和治理 world model”,整个方向会怎样重新分层。

世界模型已经不只是一个算法名词。早期 PlaNet、Dreamer、MuZero 让我们看到:agent 可以先学习环境动力学,再在内部 rollout、搜索或训练策略。后来的 V-JEPA、Genie、GAIA-1、Sora 2、NVIDIA Cosmos 又把这个问题推向更大的尺度:视频、动作、语言、3D、仿真和合成数据都开始进入同一个系统。

但这也带来一个危险:大家在说 world model 时,可能指的是 latent dynamics、视频生成器、机器人策略、自动驾驶 simulator、物理仿真平台、数据引擎,甚至只是一个很会生成视频的模型。概念变大以后,最有价值的问题反而不是“它是不是世界模型”,而是:

1
2
3
4
5
6
它的状态表示是什么?
动作怎样进入系统?
未来预测被谁消费?
数据和失败怎样回流?
评测是否证明了决策收益?
部署后如何做延迟、成本、安全和合规治理?

这就是为什么需要从 world model 转向 world model infrastructure。模型谱系回答“有哪些路线”;基础设施视角回答“怎样把这些路线变成可复用、可迭代、可治理的工程闭环”。

操作性定义

本文把世界模型基础设施定义为:

一套支持“世界状态表示、动力学学习、记忆与检索、仿真与生成、接口编排、数据流水线、评测治理、部署运维”闭环的技术栈。

这个定义故意比单个模型宽,但仍然有边界。

纳入对象 为什么纳入
PlaNet / Dreamer / MuZero 这类 action-conditioned dynamics 它们直接学习状态转移、奖励、价值或搜索所需的内部动力学
V-JEPA / V-JEPA 2 这类 latent predictive representation 它们提供可预测的视频状态表示,后续可接动作条件规划
Genie / GAIA / Cosmos / Sora 2 这类生成式世界模拟路线 它们把视频、动作、文本、场景条件接到可生成或可交互未来
MuJoCo / Brax / Isaac / CARLA / Habitat 等仿真系统 它们提供训练、评测和 sim-to-real 数据来源
replay、vector memory、lakehouse、streaming、orchestration、serving、observability 它们决定 world model 能否持续迭代和线上运行
不直接纳入 原因
纯聊天 LLM 没有显式环境状态、动作后果或闭环评测接口
不含动作 / 环境接口的普通文生视频模型 可以是世界模型的前置技术,但不能自动等同于可控 world model
单独的数据标注平台或渲染工具 只有接入状态、动作、仿真、训练或评测闭环时才属于 infra

这个边界和 World Model for Robot Learning 的机器人视角一致:世界模型的核心不是未来画面是否漂亮,而是预测是否能服务 policy、planning、simulation、evaluation 或 data generation。也和 A Comprehensive Survey on World Models for Embodied AI 的三轴 taxonomy 呼应:功能耦合、时间建模和空间表示必须一起看。

World Model for Robot Learning survey organization

图源:World Model for Robot Learning: A Comprehensive Survey,Figure 1,本站从论文 PDF 截取。原图把机器人世界模型分成 policy、simulator、robotic video world model 三个功能角色。本文读法:world model infra 不是单一路线,而是要支撑这三类角色在同一工程闭环里互相调用。

一张分层图

如果把基础设施拆开,它更像七层系统,而不是一个端到端大模型。

flowchart TB
    A["接口层
环境 API / 传感器 / 动作协议 / 多智能体协议"] --> B["表示与学习层
latent / token / BEV / graph / 3D / JEPA"] B --> C["记忆层
replay / 短时状态 / 向量记忆 / 图记忆"] C --> D["仿真与生成层
物理仿真 / 生成式仿真 / 混合仿真"] D --> E["数据流水线
真实数据 / 仿真数据 / 合成数据 / streaming"] E --> B D --> F["评测与治理层
预测质量 / 决策效用 / 系统效率 / 安全合规"] F --> G["部署与编排层
训练调度 / 推理服务 / 云边协同 / observability"] G --> A F --> E

这张图里最重要的是两个回路。

第一是 学习回路:数据进入表示与动力学学习,模型进入仿真或生成,失败样本再回流到数据层。第二是 运行回路:模型部署成服务,接收真实观测和动作请求,输出预测、风险、候选未来或策略信号,再由评测治理层约束它是否能继续被信任。

如果没有数据回流,世界模型只是一次性训练出的预测器。如果没有评测治理,世界模型很容易变成“看起来能模拟世界、但不知道是否改善任务”的展示系统。

从谱系到组件

世界模型的发展可以粗略压成四代,每一代都把新的基础设施需求带了出来。

Temporal evolution of robot world models

图源:World Model for Robot Learning: A Comprehensive Survey,Figure 2,本站从论文 PDF 截取。原图展示 world model for policy 与 world model as simulator 两条路线的时间演进。本文读法:从 decoupled 模块到 unified / latent / simulator 闭环,变化的不只是模型结构,也是采样、训练、评估和部署方式。

阶段 代表 主要问题 暴露出的 infra 需求
潜变量规划 PlaNet 从像素交互中学习 latent dynamics,并在 latent space 规划 replay、RSSM、短 horizon rollout、reward / done head
想象学习 DreamerV3 在 world model 里生成 imagined trajectories 训练 actor-critic 稳定训练 recipe、跨域尺度归一、模型偏差监控
搜索一体化 MuZero 不重建观测,只学习搜索需要的 value、reward、policy、dynamics 规划接口、tree search、value-aware dynamics
基础世界模型 / 物理 AI 平台 V-JEPA 2GenieGAIA-1NVIDIA Cosmos 大规模视频、动作、文本、场景和机器人数据如何接到可控未来 tokenizer、长上下文、合成数据、仿真平台、guardrails、serving

PlaNet 和 Dreamer 证明了一个基本点:世界模型可以不是外部视频模拟器,而是 agent 内部的 compact environment。MuZero 更进一步,说明模型甚至不必重建观察,只要能支持搜索就足够。V-JEPA 这条线则把预测对象从像素转向 latent representation;Genie 解决的是无动作视频里学习 latent action interface;GAIA-1 把 video、text、action 放进自动驾驶生成式世界模型;Cosmos 则明确把 world foundation models、datasets、tools 放到 physical AI 平台里。

所以“基础设施视角”的第一条判断是:不同 world model 不在做同一件事,但它们最终都要回答接口问题。

1
2
3
4
5
谁提供状态?
谁提供动作?
谁消费预测?
预测错了谁负责发现?
失败样本怎样进入下一轮训练?

八个组件

把提纲里的组件合并后,world model infra 可以按八个部件理解。

组件 典型形式 关键问题
表示 global latent、token sequence、BEV / voxel、scene graph、3DGS / 4D 状态是否保留可规划、可控、可评测的信息
学习 重建式、预测式、JEPA、diffusion / flow、value-aware dynamics 训练目标是否服务动作后果,而不只是视觉质量
记忆 recurrent state、replay buffer、Reverb、Faiss / Milvus、graph memory 短时状态和长期经验怎样被检索和更新
仿真 MuJoCo、Brax / MJX、Isaac Sim / Lab、CARLA、Habitat、生成式 simulator 物理规则和数据驱动模拟怎样互补
接口 Gymnasium / TorchRL、传感器 schema、action protocol、多智能体 API 环境、机器人、策略和 world model 怎样互相调用
编排 IMPALA、SEED RL、Ray / RLlib、Kubeflow、EnvPool 采样、训练、评测、推理如何分布式运行
数据流水线 Hugging Face Datasets、WebDataset、Delta Lake、Kafka、数据版本 多模态时序数据如何持续供给且可追溯
评测治理 FVD / LPIPS、return / success、Safety-Gymnasium、内容标识、审计日志 是否同时证明预测质量、决策收益、系统效率和合规边界

这八个组件里,表示、学习和仿真通常最容易被论文标题看见;数据、记忆、编排、服务和治理更像“水面下的工程”。但真正落地时,水面下的东西经常决定系统能不能长期工作。

核心层:表示、动力学和仿真

世界状态表示有四条常见路线。

Embodied world model core concepts

图源:A Comprehensive Survey on World Models for Embodied AI,Figure 1 子图,本站从论文 PDF 截取。原图把 world model 视为 internal simulator:从历史观测中构造内部世界状态,再服务 imagination、planning 与控制。本文读法:表示层不是视觉 encoder 的附属品,而是所有后续动力学、记忆、仿真和评测的共同接口。

表示路线 代表 优势 风险
latent dynamics PlaNet、Dreamer、DreamerV3 紧凑、适合实时控制和 imagined rollout 几何结构不显式,可解释性弱
token / Transformer worlds GAIA-1、Genie、LWM、视频世界模型 易扩展到多模态、长上下文和基础模型训练 token 成本高,动作后果可能没有扎实 grounding
grid / BEV / occupancy 自动驾驶 world model、OccWorld / Drive-WM 一类路线 对 planner 友好,空间位置明确 需要强标定和几何数据,远 horizon 衰减明显
graph / 3D / rendering representation Graph Network Simulator、NeRF / 3DGS / 4D scene 适合物体关系、接触、可渲染数字孪生 动态对象和大规模更新仍难

这里不要把“高维视频生成”自动等同于“更强 world state”。对机器人和自动驾驶来说,planner 更关心 collision、occupancy、pose、depth、reward、constraint violation,而不一定需要高清 RGB。JEPA 路线的启发正在这里:如果未来细节不可控又不影响决策,就不应该强迫模型重建所有像素。

Spatial latent grid world representation

图源:A Comprehensive Survey on World Models for Embodied AI,Figure 1 子图,本站从论文 PDF 截取。原图展示 Spatial Latent Grid 用 BEV、voxel、occupancy 或 geometry-aligned latent grid 表示空间世界。本文读法:自动驾驶和机器人规划常常需要这种可落到空间坐标的状态,而不是只要 RGB 视频续写。

动力学学习也至少有四种范式。

范式 代表 学到什么
显式重建型 DreamerV3 latent 能解释观测、奖励和 continuation,prior 可 rollout
规划相关型 MuZero 只学习对搜索有用的 reward、value、policy、dynamics
行动条件型 V-JEPA 2-AC、Genie latent action 固定历史下,不同动作要导致不同未来
多模态条件型 GAIA-1、Cosmos、Sora 2 视频、文本、动作、相机或场景条件共同约束生成未来

DreamerV3 world model learning

图源:Mastering Diverse Domains through World Models / DreamerV3,Figure 3(a),本站从论文 PDF 截取。原图展示 DreamerV3 如何把观测编码为离散 latent representation,并用 recurrent dynamics 在动作条件下预测未来 latent。本文读法:这是 world model infra 的最小闭环原型:replay、latent dynamics、reward / continuation head 和 imagined rollout 都必须同时存在。

V-JEPA 2 action-conditioned world model

图源:V-JEPA 2,论文 / 项目图,本站从论文材料截取。原图展示 action-conditioned world model 如何基于视频表征和动作预测未来状态。本文读法:V-JEPA 类表征路线要进入机器人控制,关键补丁就是让 action 显式进入 latent transition,并用规划结果而不是像素指标收口。

仿真层则需要区分两类世界。

类型 代表 适合做什么 不足
物理仿真 MuJoCoBraxIsaac LabCARLAHabitat-Lab 可控实验、接触动力学、机器人学习、自动驾驶场景 资产、材质、传感器噪声和真实分布仍有 sim-to-real gap
生成式仿真 GenieGAIA-1CosmosSora 2 System Card 开放场景扩展、反事实生成、数据增强、人类可检查未来 物理一致性、动作敏感性、长时记忆和安全边界更难证明

更可能的工程形态不是二选一,而是混合仿真:用物理引擎提供可计算约束,用生成式模型补足视觉真实感、长尾场景和多样环境,再用真实数据闭环校正。

Genie model training

图源:Genie: Generative Interactive Environments,Figure 2,本站从论文 PDF 截取。原图展示 video tokenizer、latent action model 与 dynamics model 的训练关系。本文读法:生成式世界模拟器要想可交互,必须把“状态 token 化”“动作接口发现”和“动作条件动态预测”拆成可训练、可评测的组件。

Robotic video world model capabilities

图源:World Model for Robot Learning: A Comprehensive Survey,Figure 6,本站从论文 PDF 截取。原图梳理 robotic video world model 从 imagination 到 controllable / structured / foundation-scale 的能力演进。本文读法:视频生成只是入口,真正进入 infra 后还要补动作条件、结构约束、长时一致和系统评测。

支撑层:数据、记忆、编排和服务

世界模型 infra 的中心不是模型文件,而是数据飞轮。

1
2
3
4
5
6
7
真实世界数据
-> 清洗 / 标定 / schema 对齐
-> 仿真与生成式扩增
-> 训练 world model / policy / evaluator
-> 离线评测 + 闭环评测
-> 线上失败、near-miss、人工审核样本回流
-> 下一轮数据

真实数据可以来自 Open X-EmbodimentEgo4DWaymo Open Dataset 这类机器人、第一视角和自动驾驶数据;仿真数据来自 CARLA、Isaac、Habitat、HSSD 等环境;合成数据可以来自 Cosmos Transfer、生成式 driving world model 或交互式环境生成。V-JEPA 2 这类工作还说明,大规模互联网视频预训练可以成为世界状态表示的底座,但如果要控制机器人,仍要补少量交互轨迹和动作条件后训练。

数据管线本身也要工程化。

工具 / 模式 在 world model infra 里的作用
Hugging Face Datasets / Arrow / streaming 大规模样本索引、分片读取、流式训练
WebDataset 顺序 tar shard I/O,适合视频、图像、多模态样本
Delta Lake lakehouse、ACID、版本回溯、流批统一
Apache Kafka 线上事件、机器人日志、失败样本和遥测流

记忆层可以从 replay buffer 开始,但不能停在 replay buffer。

层次 代表 作用
短时状态 RSSM hidden state、Transformer KV、episode context 支撑当前 rollout 和局部决策
经验回放 replay buffer、Reverb 支撑 off-policy / model-based RL、失败复盘
长期检索 FaissMilvus 检索相似场景、长尾失败、历史反事实
图记忆 scene graph、road graph、object relation graph 记录对象、拓扑、因果关系和可达性

训练和编排层决定系统能否规模化。IMPALA 把 actor 和 learner 解耦,SEED RL 用中心化推理提高吞吐;Ray / RLlib / Ray Serve 提供分布式采样、训练和服务;Kubeflow Pipelines 提供 Kubernetes 原生 workflow;EnvPool 用 C++ 批量环境执行提高 RL 采样效率。

部署层则把 world model 从训练产物变成 world service。它可能不是直接输出动作,而是提供以下服务:

1
2
3
4
5
predict_future(state, action_sequence)
score_candidate(state, action_sequence)
generate_counterfactual(scene, control)
retrieve_similar_failures(state)
estimate_risk(state, plan)

这时 KServeNVIDIA NIMRay Serve 和 Jetson 边缘部署就会进入系统设计。典型形态是:云上训练和合成数据,边缘侧低延迟推理与控制,失败日志和不确定样本回传云端。

评测与治理

世界模型的评测不能只看视频质量。更稳的指标是五层。

指标 回答的问题
预测保真度 FVD、LPIPS、PSNR、SSIM 生成或预测是否像真实数据
动作敏感性 counterfactual consistency、action-conditioned divergence 同一历史下换动作,未来是否合理分叉
决策效用 return、success rate、planning success、constraint violations 模型预测是否改善任务结果
系统效率 throughput、p95 latency、GPU-hours、每百万步成本 能否支撑闭环控制和持续训练
安全合规 Safety-Gymnasium cost、审计日志、内容标识、数据条款 是否能被安全上线和追责

World model as RL simulator and validation model

图源:World Model for Robot Learning: A Comprehensive Survey,Figure 5,本站从论文 PDF 截取。原图对比 world model 作为 RL simulator 与 validation / candidate evaluation model 的不同用法。本文读法:评测治理层不只是打分表,它决定 world model 是拿来训练策略、筛选候选动作,还是作为上线前的风险过滤器。

Hou et al. 2026 的重要提醒是,机器人世界模型要按 policy、simulator、robotic video world model 的功能角色评估。Li et al. 2025 也把 pixel quality、state-level understanding、task performance 分开看。换句话说,FVD / LPIPS 是必要体检,但不能替代闭环任务指标。

治理也必须进入基础设施层,而不是上线前补一个 checklist。原因很简单:world model 会生成视频、虚拟场景、驾驶场景、机器人行为和模拟数据,一旦进入产品或数据飞轮,来源追踪和标识会影响后续所有训练样本。

截至 2026-06-15,中国《互联网信息服务深度合成管理规定》已经施行;《人工智能生成合成内容标识办法》和强制性国家标准 GB 45438-2025 对生成合成内容标识提出了显式 / 隐式标识要求。OpenAI 的 Sora 2 System Card 也把风险评估、数据过滤、C2PA、可见水印和部署限制放进系统卡;另据 OpenAI Help Center,Sora web/app 已于 2026-04-26 停用,API 计划于 2026-09-24 停用。Waymo Open Dataset 这类数据源也通过单独条款限定数据使用边界。

所以 world model infra 需要原生设计:

  1. 数据来源和授权记录;
  2. 合成内容显式 / 隐式标识;
  3. 训练样本、模型版本、评测报告可追溯;
  4. 失败样本、near-miss、人工审核结论可回放;
  5. 访问控制、导出限制和水印策略;
  6. 面向机器人 / 自动驾驶的安全约束和回退策略。

这不是合规部门的附属任务,而是数据飞轮能否可信运行的前提。

典型系统怎样映射

系统 更像哪一层的代表 基础设施启发
DreamerV3 表示 + 动力学 + policy learning 一个可复现 world model 闭环必须同时有 replay、latent dynamics、reward / continuation、imagined actor-critic
MuZero 规划导向动力学 世界模型可以只学习搜索需要的抽象状态,而不追求像素重建
V-JEPA 2 表征型世界模型 视频预训练可以先学习物理动态 latent,再用少量交互数据做 action-conditioned post-training
Genie 生成式交互环境 无动作视频可通过 latent action interface 变成可控环境,但实时性、长时一致性和动作 grounding 仍是边界
GAIA-1 自动驾驶生成式世界模型 video + text + action token 可以生成可控 driving scenarios,但仍需规划效用和安全指标收口
Cosmos + Isaac 物理 AI 平台闭环 世界模型正在和数据、仿真、后训练、guardrails、机器人开发工具合并成平台
Sora 2 高保真视频 / 音频生成与安全部署样本 对 world model infra 的启发主要在物理一致性、可控性、系统卡、来源标识和产品边界,而不是直接等同于机器人 simulator

这里最值得吸收的是 Cosmos 的平台化信号。NVIDIA Cosmos GitHub 把它描述为面向机器人、自动驾驶和智能基础设施的 world models、datasets、tools 开放平台;Cosmos Cookbook 进一步提供 post-training scripts、recipes 和 physical AI workflows。这说明 world model 的竞争正在从“单模型能力”转向“模型 + 数据 + 后训练 + 仿真 + 部署工具”的组合能力。

未来挑战

第一,统一 world state IR。
现在 latent、token、BEV、occupancy、scene graph、3DGS、road graph 都在各自系统里工作。真正的 infra 需要一种中间表示,让感知、规划、仿真、生成和评测可以共享状态,而不是每个模块各说各话。

第二,从离线视频预训练走向闭环在线适应。
V-JEPA 2、Genie、GAIA-1 证明了视频规模的重要性,但机器人和自动驾驶最终要面对在线分布漂移。难点不是再训练一个大模型,而是边收集、边过滤、边验证、边部署的持续学习流程。

第三,评测要越过像素保真。
未来 world model 论文如果只报 FVD / LPIPS,会越来越不够。更需要同时报告 action sensitivity、planning utility、latency、cost、constraint violations 和真实闭环成功率。

第四,sim-to-real 数据飞轮需要标准化。
真实、仿真、生成三域的数据必须有统一 schema:相机、外参、时间戳、动作、控制频率、碰撞、接触、reward、success checker、合成来源和授权都要对齐。没有 schema,对齐问题会被误判成模型能力问题。

第五,长期记忆要从 replay 扩展到可检索世界经验。
未来的世界模型不只需要记住最近一段上下文,还要检索历史失败、相似场景、长尾风险和人类修正。Faiss / Milvus 这类向量检索只是起点,图记忆和因果事件记忆会越来越重要。

第六,compliance-by-design 会变成默认能力。
生成式世界模拟器越接近真实视频和虚拟场景,越不能把来源标识、审计日志、水印、访问控制和数据条款当成后处理。基础设施必须默认支持可追溯。

第七,接口和 benchmark 需要社区标准。
Gymnasium、TorchRL、RLlib、KServe、Kubeflow、MLflow Model Registry 这些生态已经给了接口启发,但 world model infra 仍缺一套统一的状态协议、动作协议、模拟协议和多层评测协议。

我的判断

世界模型的下一阶段不会只由一个更大的视频模型定义。更可能出现的是一套“物理 AI 工程栈”:上层是可控生成和抽象预测,中层是状态表示、动作接口、记忆和仿真,下层是数据飞轮、训练编排、评测治理和云边部署。

所以做 world model infra 时,优先级应该是:

  1. 先定义状态、动作、数据 schema 和 success checker;
  2. 再选择 latent、token、BEV、3D 或混合表示;
  3. 用物理仿真和生成式仿真共同扩展数据;
  4. 用闭环任务指标证明预测能改变动作选择;
  5. 把数据来源、内容标识、审计和部署监控做成默认能力。

模型会继续变强,但真正稀缺的是可复用闭环。世界模型要从论文能力变成基础设施,靠的不是一个“能想象未来”的模型,而是一整套能持续发现错误、回收错误、修正错误的系统。

外部精读

相关阅读与下一步

  • Title: 思考探索:世界模型 Infra:从模型谱系到物理 AI 工程栈
  • Author: Charles
  • Created at : 2026-06-14 09:00:00
  • Updated at : 2026-06-14 09:00:00
  • Link: https://charles2530.github.io/2026/06/14/ai-files-thinking-exploration-world-model-infrastructure/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments