强化学习:世界模型中的强化学习
世界模型不是“会生成未来画面”就够了。对决策系统来说,世界模型真正要回答的是:如果我在当前状态做这个动作,未来会发生什么,这个未来是否值得执行。 强化学习提供了三件工具:用 MDP/Bellman 表达长期后果,用 value/reward 判断候选未来,用 policy 或 planner 把高价值未来变成动作。
所以这篇不把 PlaNet、Dreamer、Decision Transformer、RLVR-World 当论文名堆起来,而是沿一条主线讲:从真实 transition 到 learned transition,再到 imagined rollout 和闭环策略优化。
世界模型补的是 transition
在 MDP 里,真实环境 transition 是:
它表示:给定当前状态 和动作 ,真实环境会产生下一状态 的概率分布。世界模型学习的是一个近似:
帽子 很重要:这是模型预测,不是真实世界。世界模型越有用,不是因为它能把未来画得越漂亮,而是因为它的预测能保留决策变量:物体位置、速度、接触、遮挡、任务进度、风险和可恢复性。
很多实用世界模型还会同时预测:
这里 是奖励或任务进展, 是终止/失败信号, 是不确定性或风险。强化学习需要这些量,是因为 Bellman backup 要把“当前动作的后果”递归成未来价值。
| 世界模型输出 | 对 RL 的作用 | 常见失败 |
|---|---|---|
| 下一状态 | 让 planner 或 actor 比较动作后果 | 视觉像但物理错,接触和遮挡丢失 |
| reward | 给 imagined rollout 提供即时反馈 | reward 与真实任务错位 |
| done/failure | 判断任务结束、碰撞或不可恢复 | 失败边界过晚或过早触发 |
| uncertainty/risk | 惩罚模型不确定区域,减少 exploitation | 不确定性未校准,策略过保守或过冒险 |
PlaNet:先学 latent dynamics,再在线规划
PlaNet 是理解 model-based RL 的好入口。它不在像素空间里直接规划,而是先把观测编码成 latent belief,再用 RSSM 预测 latent future,最后用 CEM 搜索未来动作序列。

图源:Learning Latent Dynamics for Planning from Pixels,Figure 2。原图表达:比较 RNN、SSM 和 RSSM 三种 dynamics 结构;RSSM 同时保留 deterministic memory 和 stochastic latent state。本站读法:deterministic state 记历史,stochastic state 表达不确定性,二者合起来更适合部分可观测控制。
PlaNet 的闭环可以写成:
1 | 当前观测 -> 编码成 latent belief |
这里的关键不是“模型会预测未来”,而是“每一步执行后重新观察并重新规划”。这会缓解模型误差累积:如果前一次预测错了,新 observation 可以把 belief 拉回真实状态附近。
PlaNet 的代价也很清楚:执行时要持续搜索。每个控制步都要比较多条候选动作序列,latency 和采样数量会限制它在高频机器人控制或大模型 rollout 服务中的使用。
Dreamer:把在线搜索换成想象中训练 actor
Dreamer 保留 learned world model,但不再每一步都靠 CEM 在线搜索。它在 world model 里展开 imagined trajectories,用这些轨迹训练 actor 和 critic;执行时 actor 直接输出动作。

图源:Dream to Control: Learning Behaviors by Latent Imagination,Algorithm 1。原图表达:Dreamer 交替进行 dynamics learning、behavior learning 和 environment interaction。本站读法:真实经验主要用于训练 world model,策略更新大量发生在 latent imagination 中。
Dreamer 把训练拆成三层:
| 层 | 学什么 | 用什么数据 |
|---|---|---|
| representation / transition | latent state 和 dynamics | replay buffer 中的真实 observation/action |
| reward / continue | imagined rollout 的即时反馈和终止 | 真实 reward/done 监督 |
| actor / critic | 哪些动作让 imagined return 更高 | world model 中展开的 imagined trajectories |
DreamerV2 的 actor-critic 图更直观:

图源:Mastering Atari with Discrete World Models,Figure 3。原图表达:从真实 replay state 出发,在 learned world model 中展开 imagined trajectories,并用这些轨迹训练 actor 和 critic。本站读法:world model 提供 Bellman 里的下一状态和 reward,critic 估计未来价值,actor 选择让 imagined return 更高的动作。
Dreamer 的效率来自“真实世界步数”被换成“latent rollout 步数”。如果机器人以 20Hz 收集真实交互,245,760 个真实 transition 需要:
如果同样数量的 latent transition 在 GPU 上每步 0.04ms,只需约:
这就是 world model RL 的吸引力。但代价也在同一处:便宜 transition 是模型想象出来的,不是真实世界。如果每一步有 1% 的关键接触误判,15 步里至少一次误判的概率约为:
rollout 越长,actor 越可能学会利用模型漏洞。所以实践里常配合短 horizon、value bootstrap、不确定性惩罚、真实 replay 校准和闭环评测。
这就是 model exploitation。比如真实机器人推杯子时,杯子碰到桌沿会卡住;但世界模型没有学好接触边界,想象里杯子可以穿过桌沿继续前进。actor 在 imagined rollout 里会发现“猛推”得到高 reward,于是学出真实环境里会失败的动作。RL 给了世界模型很高的样本效率,也把模型错误变成了可被策略主动利用的漏洞。
为什么 open-loop 好看不等于能规划
世界模型有两种完全不同的评价方式:
| 评价方式 | 问的问题 | 不能证明什么 |
|---|---|---|
| open-loop prediction | 未来帧、latent 或状态预测像不像真实数据 | planner 能不能用、动作是否真的影响未来 |
| closed-loop control | 接入策略或规划器后任务是否成功 | 预测图像一定自然、跨平台泛化 |
很多视频世界模型可以生成自然未来,但没有动作条件、reward/done 或 risk head。这样的模型可以是优秀的视频生成器或表征模型,却不能直接称为可规划世界模型。对决策最关键的是 action sensitivity:同一当前状态下,换不同动作,预测未来是否按动作改变。
一个典型失败链是:
1 | 训练 loss 下降 |
所以世界模型论文至少要区分:是否有动作输入、是否预测 reward/done/risk、是否做 closed-loop eval、是否检查 model exploitation。
Decision Transformer:把轨迹当序列建模
并不是所有 RL 都必须显式做 Bellman backup。Decision Transformer 把 return-to-go、state、action 交替组织成序列,让 Transformer 在目标回报条件下预测动作。

图源:Decision Transformer,Figure 1。原图表达:把 return-to-go、state、action 交替输入 GPT decoder,用目标回报条件化动作预测。本站读法:轨迹可以被当成序列数据建模,但这并不自动解决分布外动作和真实闭环问题。
这条路线对 VLA 和 action token 很有启发:如果动作、观测和目标都能 token 化,就可以用序列模型学习“给定目标回报时应该怎样行动”。但它依赖数据覆盖。离线数据里没有的动作组合,模型仍然很难可靠外推。
RLVR-World:用可验证奖励训练世界模型本身
传统 world model 多用 MLE、重建 loss、latent prediction loss 或 reward/done supervised loss。RLVR-World 的问题意识是:这些 surrogate objective 可能和下游任务指标错位。比如视频 MSE 低,不一定代表状态预测更准;画面更自然,不一定代表 action consequence 更可靠。

图源:RLVR-World: Training World Models with Reinforcement Learning,Figure 1。原图表达:左侧是用 MLE 等 surrogate objective 训练 world model,右侧是用 RLVR 直接优化 decoded prediction 的可验证任务指标。本站读法:RL 不只可以训练 policy,也可以用可验证指标反过来训练世界模型预测本身。
这类训练可以抽成:
1 | 状态 s + 动作 a |
这里的关键仍然是 reward 是否真对应任务。如果 reward 只奖励像素相似,模型可能学会输出平均化未来;如果 reward 包含结构化状态、动作敏感性、风险和闭环成功,才更可能服务规划。
世界模型中的 RL 有五种增量
| 增量 | 它带来什么 | 主要风险 |
|---|---|---|
| 数据收集闭环 | policy 把数据推向任务相关状态 | 数据分布变窄,失败样本不足 |
| 长期信用分配 | reward/value 把未来结果反馈到早期动作 | value target 错误沿 Bellman 放大 |
| 想象训练 | 用 latent rollout 减少真实试错 | model exploitation |
| 反事实规划 | 比较“如果换动作会怎样” | action sensitivity 不足 |
| 任务指标对齐 | 用可验证 reward 直接优化预测质量 | reward 只覆盖局部指标 |
和 VLA 的连接
VLA 学的是动作策略:
给定历史观测 和语言指令 ,输出动作 。世界模型学的是动作后果:
给定历史观测、未来候选动作和语言指令,预测未来观测、奖励和终止信号。RL 把两者接起来:
- 用 world model 预测候选动作后果。
- 用 reward/value/risk 判断哪条未来更好。
- 更新 policy,使它更偏向高回报低风险动作。
- 用真实闭环数据修正 world model 的盲点。
机器人数据常常来自历史实验、遥操作或离线数据集,不能像游戏一样无限探索。Offline RL 的教训很直接:不要让 value 对数据里没支持的动作胡乱乐观;VLA + world model 也一样,需要 support 约束、失败回放、真实执行校准和安全门禁。

图源:Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems,Figure 7。原图表达:大规模机器人抓取数据收集与离线/在线训练设置。本站读法:真实机器人数据昂贵,所以世界模型和 offline RL 都必须认真处理数据覆盖与分布外动作。
读论文时问这七个问题
| 问题 | 看哪里 |
|---|---|
| 模型预测的是 pixel、latent、state,还是 reward/done/risk | 模型结构图、loss、输出头 |
| 动作是否真的进入 transition | action-conditioned ablation、counterfactual action |
| imagined rollout 多长 | horizon ablation、value bootstrap、error accumulation |
| 是否有 closed-loop eval | 机器人/控制任务 success、cost per success |
| 是否检查 model exploitation | failure replay、uncertainty penalty、真实回放校准 |
| reward 是否和任务一致 | reward definition、verifier、分桶指标 |
| 系统成本是否可接受 | rollout latency、candidate 数、GPU-hour、batch/KV 复用 |
外部精读
- World Models:Ha & Schmidhuber 的原始项目页,用很直观的方式说明用内部模型做控制。
- Learning Latent Dynamics for Planning from Pixels:PlaNet,理解 latent dynamics + online planning。
- Dream to Control:Dreamer,理解 latent imagination 训练 actor-critic。
- Decision Transformer:把 RL 轨迹组织成序列建模问题。
- RLVR-World:用可验证 reward 训练世界模型预测本身。
读完以后怎么判断
强化学习让世界模型从“预测器”变成“决策工具”:transition 预测动作后果,reward/value 衡量未来好坏,policy 或 planner 选择动作。真正的难点不在于生成未来,而在于预测必须 action-sensitive、reward 必须任务相关、rollout horizon 必须受控,最后还要用 closed-loop 证明它真的改善决策。
相关阅读与下一步
- 外部材料:Spinning Up:Policy Optimization。
- 外部材料:PPO 论文。
- 外部材料:Soft Actor-Critic 论文。
- 站内下一步:强化学习专题。
- 站内下一步:MDP、价值函数与 Bellman。
- 站内下一步:世界模型中的强化学习。
- Title: 强化学习:世界模型中的强化学习
- Author: Charles
- Created at : 2025-12-27 09:00:00
- Updated at : 2025-12-27 09:00:00
- Link: https://charles2530.github.io/2025/12/27/ai-files-reinforcement-learning-rl-for-world-models/
- License: This work is licensed under CC BY-NC-SA 4.0.