Charles's Castle

This is Charles's Castle

Archives Photos Essays Friends

Charles

Lv8

Categories

558

Posts

世界模型：RSSM、Dreamer 与规划：世界模型怎样变成控制信号

Dreamer 这条线要回答的不是“能不能预测一段未来视频”，而是：真实环境交互很贵时，能不能先学一个内部环境，再让策略在这个内部环境里练习。RSSM 是这个内部环境的状态骨架，PlaNet 用它在线搜索动作，Dreamer 用它批量想象轨迹来训练 actor-critic。如果只记一个判断： posterior 用
2026-03-17
AI

>

世界模型
AI

| 生成模型

| 世界模型
Read more世界模型：RSSM、Dreamer 与规划：世界模型怎样变成控制信号
世界模型：规划即推理与潜在动作

世界模型与规划有一条重要线索：规划不一定只能写成显式搜索或值函数优化，也可以写成推断问题。与此同时，复杂动作空间直接规划太难，很多系统会把动作片段压缩成潜在动作或技能代码，再在更紧凑的空间里做推理。这页连接三件事：为什么奖励最大化可以改写成后验推断，为什么潜在动作适合高维控制，以及这条路线如何和 WM / WAM /
2026-03-15
AI

>

世界模型
AI

| 生成模型

| 推理
Read more世界模型：规划即推理与潜在动作
世界模型：生成式模拟与视频世界模型：从好看视频到可交互未来

视频世界模型很容易被误读成“更强的视频生成”。在世界模型语境里，它真正要回答的是：给定历史、动作、目标和场景约束，未来是否会以可验证、可交互、可用于决策的方式演化。所以这页只讲一个问题：视频生成模型要补上什么，才能变成服务规划和数据回流的世界模型。普通视频生成缺少动作因果普通视频生成常建模： $$ p theta
2026-03-13
AI

>

世界模型
AI

| 生成模型

| 世界模型
Read more世界模型：生成式模拟与视频世界模型：从好看视频到可交互未来
世界模型：评测：不要让好看的未来骗过决策系统

这篇回答的问题。如何理解“世界模型评测”背后的核心机制、适用边界和下一步阅读路径。评测世界模型时，最容易被一段漂亮视频带偏。视频很清晰、动作很顺、物体看起来也没穿模，但只要换一个候选动作，未来仍然差不多；或者 planner 按它的预测去执行，真实环境里马上碰撞、滑落、卡住。这样的模型可以是很强的视频模型，却还不是
2026-03-11
AI

>

世界模型
AI

| 生成模型

| 数据与评测
Read more世界模型：评测：不要让好看的未来骗过决策系统
世界模型：高效训练路线图

世界模型高效训练不是“找最新论文”，而是在有限预算下回答一个工程问题：怎样少用真实交互、少用视频 token、少占显存和通信、少花 rollout 延迟，同时还能让预测真的改善决策。这篇是全站主线枢纽。它不要求你先读总览页，也不把所有论文排成清单；它把世界模型训练拆成五类成本、四条主要路线和一套证据判断方法。中心
2026-03-10
AI

>

世界模型
AI

| 生成模型

| 训练
Read more世界模型：高效训练路线图
世界模型：开发路线：先把数据、动作和评测接成闭环

面向机器人任务开发世界模型，第一步不是选最大的视频模型，而是把“世界状态是什么、动作如何改变它、怎样判定成功”讲清楚。否则模型即使能生成未来，也不知道自己在预测哪个坐标系里的未来，更无法服务真实闭环。这页只回答一个问题：如果今天要做一个能服务机器人任务的世界模型，数据、几何、动作、仿真和评测应该怎样接起来。图源：W
2026-03-08
AI

>

世界模型
AI

| 生成模型

| 数据与评测
Read more世界模型：开发路线：先把数据、动作和评测接成闭环
世界模型：数据引擎与自我改进

世界模型的长期价值，不只在于一次训练出一个“会想象未来”的模型，而在于它能否成为持续收集数据、发现盲点、生成新经验并反哺策略的核心引擎。换句话说，世界模型不仅是预测器，也可能是数据调度器、失败分析器、样本筛选器和反事实生成器。这页讨论世界模型如何与主动采样、失败回流、near-miss 挖掘、仿真生成、人工反馈和门禁
2026-03-06
AI

>

世界模型
AI

| 生成模型

| 数据与评测
Read more世界模型：数据引擎与自我改进
世界模型：机器人与自动驾驶中的世界模型

世界模型最有吸引力的落地场景，正是那些真实试错昂贵、长时规划重要、环境部分可观测且安全约束严格的系统。机器人与自动驾驶同时满足这几个条件，因此它们也是世界模型从“研究概念”走向“工程工具”的主战场。不过，这两个领域虽然都适合世界模型，却并不相同。机器人更强调接触、操控、技能组合和低层闭环；自动驾驶更强调多主体交互、地
2026-03-05
AI

>

世界模型
AI

| 生成模型

| 具身智能
Read more世界模型：机器人与自动驾驶中的世界模型
世界模型：动作条件视频世界模型端到端训练案例

这篇回答的问题。如何理解“动作条件视频世界模型端到端训练案例”背后的核心机制、适用边界和下一步阅读路径。这页用一个具体案例把全站主线串起来：训练一个面向机器人桌面操作的动作条件视频世界模型。目标不是追求最完整的工业方案，而是给读者一条可复盘的技术链路：从数据、视觉状态、动作接口，到训练系统、rollout 推理
2026-03-03
AI

>

世界模型
AI

| 生成模型

| 训练
Read more世界模型：动作条件视频世界模型端到端训练案例
VLM/VLA：世界模型高效训练接口

如果主线是世界模型的高效训练技术，VLM/VLA 不应只是前置知识，而应该被看成世界模型训练的数据接口、状态接口和验证接口。它们分别回答：视觉语言状态怎么来，动作怎么来，失败怎么回流，闭环收益怎么验证。四个接口接口 VLM/VLA 提供什么世界模型用来做什么高效训练收益 — --- — --- 状态
2026-03-01
AI

>

VLM/VLA
AI

| 训练

| 多模态
Read moreVLM/VLA：世界模型高效训练接口

1…5 678 9…56