知识问答:世界模型 QA

知识问答:世界模型 QA

Charles Lv8

这一页单独整理世界模型方向的高频问题。重点不是背 PlaNet、Dreamer、JEPA、Genie、WAM 这些名字,而是能在面试里讲清:模型预测什么、动作如何进入、效率来自哪里、什么证据能证明它可用于规划,什么证据只能说明视频生成或 demo 形态。

基础定义与能力边界

Q:世界模型到底是什么?

面试回答。 世界模型是对环境动态的内部模型,用来预测当前状态在动作影响下会如何演化。最小形式可以写成:

pθ(st+1st,at)p_\theta(s_{t+1}\mid s_t,a_t)

更完整的模型还会预测 reward、done/continue、risk、未来 observation 或 latent state。它的目标不是只生成自然画面,而是服务规划、控制、反事实推演或样本高效学习。

追问展开。 如果面试官问“和生成模型有什么关系”,可以说生成模型关注从条件生成样本,世界模型关注 action-conditioned transition。世界模型可以用生成式方法实现,但不等于所有生成模型都是世界模型。
易错点 / 边界。 最大误区是把“能生成未来视频”当成“世界模型可用于控制”。没有动作条件和闭环评测,只能说明 open-loop prediction 或 video prior。
继续读。 从零理解世界模型 / 世界模型评测与失效模式

Q:世界模型和普通视频生成模型有什么区别?

面试回答。 普通视频生成模型通常学习 p(videotext/image/history)p(\text{video}\mid \text{text/image/history}),目标是生成自然、连贯、符合条件的视频;世界模型要学习动作如何改变未来,至少要建模 p(st+1:t+Hst,at:t+H)p(s_{t+1:t+H}\mid s_t,a_{t:t+H})。前者强调视觉质量,后者强调可预测、可比较、可用于决策。

追问展开。 你可以用一个反例解释:固定当前画面,如果输入“向左转”和“向右转”,模型预测的未来应该不同;如果几乎不变,它可能只是视频先验,不是动作敏感的世界模型。
易错点 / 边界。 FVD、VBench、视频自然度和 demo 观感不能证明 planning utility;必须看动作敏感、闭环成功或反事实一致性。
继续读。 生成式仿真与视频 / 视频与多模态扩散

Q:世界模型一般预测 pixel、latent 还是 embedding?

面试回答。 三者都可以。Pixel prediction 可解释性强但成本高,容易把容量浪费在纹理;latent prediction 把观测压缩成状态,适合控制和长时 rollout;embedding prediction 更抽象,可能更适合表征学习和下游任务。选择取决于模型服务什么:重建、规划、控制、评估还是表示学习。

追问展开。 Dreamer 类方法偏 latent state,JEPA 类方法偏 embedding prediction,视频扩散类方法常偏 pixel/latent video generation。真正要问的是预测空间是否保留决策变量,如动作、接触、遮挡、目标和风险。
易错点 / 边界。 Latent 更小不等于更适合控制;如果 latent 丢掉动作敏感信息,规划会失败。
继续读。 Masked / JEPA 与潜变量预测 / 世界模型评测与失效模式

Q:状态、观测和 latent state 有什么区别?

面试回答。 Observation 是传感器看到的原始或近原始数据,如图像、深度、 proprioception;state 是环境真正用于决策的变量,可能包含不可直接观测的信息;latent state 是模型从历史观测和动作中压缩出的内部表示,用来近似决策所需状态。

追问展开。 在 POMDP 里,单帧 observation 往往不够,模型需要历史 ot,a<to_{\le t}, a_{<t} 推断 belief state。RSSM 这类模型就是把历史压成 latent state,再在 latent 中 rollout。
易错点 / 边界。 不要把一帧图像等同于完整状态。遮挡、速度、接触力、目标意图都可能不在单帧里。
继续读。 RSSM、Dreamer 与规划 / MDP、价值函数与 Bellman

RSSM、Dreamer 与强化学习

Q:RSSM 为什么适合做世界模型?

面试回答。 RSSM 把 deterministic recurrent state 和 stochastic latent state 结合起来,既能保留历史信息,又能表达未来不确定性。它通常用 encoder 把 observation 编到 latent,用 transition model 预测下一个 latent,用 decoder/reward/continue head 做重建和任务信号预测。

ztqϕ(ztht,ot),ht+1=fθ(ht,zt,at)z_t \sim q_\phi(z_t\mid h_t,o_t),\quad h_{t+1}=f_\theta(h_t,z_t,a_t)

追问展开。 面试里可以强调 RSSM 的关键是把高维像素控制问题转到 latent dynamics 里,避免每次规划都在像素空间做。
易错点 / 边界。 RSSM 不是单纯 autoencoder;如果不建模动作条件 transition、reward 和 continue,就不能支撑控制学习。
继续读。 RSSM、Dreamer 与规划 / PlaNet:像素规划的潜变量动力学

Q:Dreamer 的核心训练闭环是什么?

面试回答。 Dreamer 先用真实交互数据训练 latent world model,再在 latent imagination 中 rollout 多步未来,用想象轨迹训练 actor-critic。它的价值是减少真实环境交互成本,把大量策略优化放到可学习的 latent dynamics 中。

zt+1pθ(zt+1zt,at),atπψ(atzt)z_{t+1}\sim p_\theta(z_{t+1}\mid z_t,a_t),\quad a_t\sim \pi_\psi(a_t\mid z_t)

追问展开。 面试回答要讲清三件事:world model 学 transition/reward/continue,actor 在想象轨迹里选动作,critic 估计 imagined return。Dreamer 不是只做视频预测,而是 model-based RL。
易错点 / 边界。 Imagined rollout 如果模型有偏,策略会 exploit model error;所以需要真实数据刷新、短 rollout、正则和闭环评测。
继续读。 RSSM、Dreamer 与规划 / Dreamer:想象轨迹中训练控制策略

Q:PlaNet 和 Dreamer 的差别是什么?

面试回答。 PlaNet 用 latent dynamics 做 planning,常通过 MPC 在 latent 里搜索动作序列;Dreamer 更进一步,在 latent imagination 中训练显式 actor-critic,让策略学会直接输出动作。简化说,PlaNet 更偏“每次规划”,Dreamer 更偏“用想象训练策略”。

追问展开。 这也是从 model predictive control 到 latent policy learning 的区别。MPC 在线优化成本高但灵活;actor 学出来后推理快,但依赖训练分布和 world model 质量。
易错点 / 边界。 不要把所有 RSSM 方法都叫 Dreamer;PlaNet、Dreamer、DreamerV2/V3 在规划、离散 latent、任务规模和训练细节上都有差别。
继续读。 PlaNet:像素规划的潜变量动力学 / DreamerV3:latent 里训练策略

Q:世界模型和 model-free RL 的取舍是什么?

面试回答。 Model-free RL 直接学习 policy 或 value,不显式建模环境转移;世界模型路线先学 dynamics,再用模型做规划或想象训练。世界模型通常更样本高效,因为可以复用数据做 imagined rollout,但会引入 model bias 和 exploitation 风险。

追问展开。 面试可以说:model-free 少一个模型误差来源但真实交互成本高;model-based 省交互但模型错了会带偏策略。机器人和游戏里选择哪条路线,要看数据成本、模型可学性、任务复杂度和安全。
易错点 / 边界。 不要只说 model-based 更省样本。它还要付出训练 dynamics、uncertainty、planning 和验证成本。
继续读。 世界模型中的强化学习 / MDP、价值函数与 Bellman

JEPA、Masked Prediction 与表示学习

Q:JEPA / masked prediction 为什么常被拿来谈世界模型?

面试回答。 JEPA 和 masked prediction 在 latent/embedding 空间预测缺失部分,避免像素重建里的大量低层细节,能学习更抽象的表征。它们可能成为世界模型的状态表示层,让后续 dynamics 不必处理原始像素。

追问展开。 V-JEPA 这类方法强调预测 target encoder 的 latent representation,而不是重建 RGB。这样能减少纹理细节干扰,更关注语义和结构。
易错点 / 边界。 JEPA 表征不等于完整世界模型。没有动作输入、reward/risk 和 closed-loop 验证,就不能说它能规划。
继续读。 Masked / JEPA 与潜变量预测 / V-JEPA:视频潜变量预测表征

Q:Masked reconstruction 和 latent prediction 的差别是什么?

面试回答。 Masked reconstruction 要恢复被遮挡的像素或 token,目标更偏重细节重建;latent prediction 预测另一个 encoder 产生的表示,目标更偏向语义和结构。前者容易学到低层纹理,后者更可能形成下游可用表征。

追问展开。 MAE 类方法重建像素,JEPA 类方法预测 representation。世界模型更关心后者是否保留动作相关和任务相关变量。
易错点 / 边界。 Latent prediction 更抽象不代表更可控;如果 representation 对动作变化不敏感,它仍不能服务规划。
继续读。 Masked / JEPA 与潜变量预测 / V-JEPA:视频潜变量预测表征

Q:V-JEPA 2-AC 这类 action-conditioned 表征为什么重要?

面试回答。 它把 JEPA 表征和动作条件规划接起来,让模型不只是预测视频表征,还能在 latent 空间中评估动作导致的未来变化。这样才更接近可规划世界模型。

追问展开。 面试回答可以说:action-conditioned latent planning 的关键是目标图像、当前状态、候选动作之间的关系。模型必须让不同动作产生可区分的 latent 未来。
易错点 / 边界。 有 action-conditioned 论文结果也不代表通用机器人策略已解决;任务设置、平台、目标形式和 closed-loop 评测都要看。
继续读。 Masked / JEPA 与潜变量预测 / Claim Ledger

动作条件、WAM/VAM 与生成式仿真

Q:Action-conditioned world model 为什么是关键分水岭?

面试回答。 控制关心“我做这个动作会怎样”,所以世界模型必须让动作影响未来预测。没有动作条件,模型只能学环境自然演化或视觉先验;有动作条件,模型才能比较候选动作并支持规划。

pθ(τt+1:t+Hst,at:t+H)p_\theta(\tau_{t+1:t+H}\mid s_t,a_{t:t+H})

追问展开。 面试里可以说 action conditioning 要能通过反事实测试:同一个初始状态,换动作,未来状态、风险和成功概率应发生合理变化。
易错点 / 边界。 动作作为输入还不够。很多模型可能忽略动作,只靠视觉先验生成“看起来合理”的未来。
继续读。 WM / WAM / VAM:动作条件建模 / 世界模型评测与失效模式

Q:WAM、VAM 和 VLA 的差别怎么说?

面试回答。 VLA 主要从视觉和语言输出动作,关注 policy;WAM 通常强调 world-action model,即联合建模视频/状态和动作,让模型预测动作与世界变化;VAM 更偏 video-action modeling,把动作和视频生成/预测绑在一起。三者边界不是绝对,但关注点不同:VLA 输出动作,WAM/VAM 更强调动作-后果建模。

追问展开。 面试中可以用一句话区分:VLA 问“下一步做什么”,WAM 问“做了以后世界怎样变”,世界模型问“能否用这个预测来规划”。
易错点 / 边界。 不要把名字当能力证明。无论叫 WAM 还是 VAM,都要看动作敏感性、闭环成功率和失败恢复。
继续读。 WM / WAM / VAM:动作条件建模 / VLA、WAM 与世界模型系统图

Q:Genie 这类无动作标签方法为什么有启发?

面试回答。 Genie 类方法试图从视频中学习 latent actions,让模型能从观察数据中发现可控因素。它的启发是:即使没有真实动作标签,也可以通过视频变化学习某种可交互结构。

追问展开。 但 latent action 和真实机器人动作不同。latent action 可能对应视频中的抽象变化,不一定能映射到机械臂关节、末端位姿或移动机器人控制。
易错点 / 边界。 无动作标签可交互视频模型不等于可部署机器人策略;要看 latent action 是否可控、可解释、可接真实动作接口。
继续读。 Genie:无动作标签学可交互环境 / WM / WAM / VAM:动作条件建模

Q:为什么视频世界模型要关心因果化和流式生成?

面试回答。 真实交互是时间向前发生的,控制系统不能看到未来帧。视频世界模型如果训练时使用双向上下文,推理时做自回归 rollout,就会有训练-推理错配。因果化和流式生成让模型更接近在线决策场景。

追问展开。 CausVid、Diffusion Forcing、Self Forcing 等路线都在处理视频生成和在线 rollout 的错配。核心问题是:模型能不能边接收新观测、边更新未来预测。
易错点 / 边界。 视频流式更快不等于规划更好;还要看动作条件和闭环任务。
继续读。 生成式仿真与视频 / CausVid:流式自回归视频扩散

评测、证据与工程落地

Q:世界模型评测最容易被什么骗?

面试回答。 最容易被 open-loop 指标骗。一个模型可以 FVD、loss 或视频自然度很好,但对动作不敏感,规划时不能区分好动作和坏动作。世界模型评测要看 closed-loop success、action sensitivity、反事实一致性、风险校准和失败回放。

追问展开。 面试里可以给反例:固定当前画面,换不同动作,未来预测几乎不变;这说明模型学了视觉先验,却没学动作动力学。
易错点 / 边界。 系统吞吐、官方 demo、open-loop 视频都不能替代真实或仿真闭环评测。
继续读。 世界模型评测与失效模式 / 证据判断原则

Q:Action sensitivity 应该怎么测?

面试回答。 Action sensitivity 测的是模型未来预测是否真正随动作变化。基本做法是固定当前状态和目标,输入多个候选动作,观察未来 latent、视频、reward、risk 或 success score 是否产生合理差异,并和真实环境或高保真仿真对照。

追问展开。 更进一步可以看动作排序是否正确:模型认为更好的动作,真实执行成功率是否更高。也可以看 counterfactual consistency:小动作变化是否带来合理的小未来变化。
易错点 / 边界。 只看生成视频有变化不够;变化必须和动作语义一致,并能提升决策。
继续读。 世界模型评测与失效模式 / Claim Ledger

Q:Open-loop loss、FVD 和 closed-loop success 分别能证明什么?

面试回答。 Open-loop loss 说明模型在固定数据轨迹上的预测误差;FVD 说明生成视频分布和真实视频分布的视觉/时序相似度;closed-loop success 说明模型或策略在环境中实际执行任务的成功率。三者证据强度不同。

追问展开。 如果目标是规划和控制,closed-loop success 更接近最终目标;open-loop 指标可用于模型调试,但不能替代执行结果。
易错点 / 边界。 不要用 FVD 证明控制能力。它最多说明视频分布相似,不说明动作选择正确。
继续读。 全站证据与复现状态标准 / 世界模型评测与失效模式

Q:世界模型为什么需要不确定性和风险建模?

面试回答。 真实环境有部分可观测、随机性和模型误差。世界模型如果只给单一路径预测,策略可能过度相信错误未来;不确定性和风险 head 可以帮助 planner 避开高风险动作,或在不确定时请求真实观测刷新。

追问展开。 常见做法包括 ensemble、stochastic latent、分布式预测、risk score、uncertainty calibration。机器人和自动驾驶尤其需要知道“模型不知道什么”。
易错点 / 边界。 平均预测很准不代表风险可控;长尾碰撞、遮挡和接触失败常在平均指标里被淹没。
继续读。 不确定性与风险感知规划 / 世界模型评测与失效模式

Q:世界模型如何和推理系统、KV cache、量化这些工程问题连接?

面试回答。 大规模视频/多模态世界模型推理成本很高,长 rollout 会消耗大量 KV cache、显存和采样步数。系统优化可以降低 rollout latency、并发成本和部署门槛,例如 KV 压缩、少步扩散蒸馏、量化、batching 和缓存。

追问展开。 但系统吞吐只证明成本下降,不证明模型预测更准或规划更好。工程优化必须和 action sensitivity、closed-loop success、质量回归同表评估。
易错点 / 边界。 不能因为 rollout 更快就说世界模型更强;速度和任务 utility 是两条证据链。
继续读。 世界模型高效训练实验报告 / Claim Ledger

Q:如果面试让你设计一个世界模型系统,你会怎么说?

面试回答。 我会先定义任务和状态:输入哪些观测、动作空间是什么、预测 horizon 多长、输出是 latent/reward/risk 还是视频。然后设计数据闭环:收集轨迹、训练 transition/reward/risk、做 open-loop 和 action sensitivity 检查,再接 planner 或 policy 做 closed-loop eval。

追问展开。 系统结构可以是 encoder -> latent dynamics -> reward/risk heads -> planner/policy -> evaluator。评测上必须报告 cost per success、failure replay、latency 和不确定性。
易错点 / 边界。 不要一上来就说“用一个视频生成大模型”。世界模型设计必须从任务、动作、状态和评测闭环出发。
继续读。 发展路线:数据、仿真与评测 / VLA、WAM 与世界模型系统图

  • Title: 知识问答:世界模型 QA
  • Author: Charles
  • Created at : 2026-06-02 09:00:00
  • Updated at : 2026-06-02 09:00:00
  • Link: https://charles2530.github.io/2026/06/02/ai-files-knowledge-qa-world-models/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments