世界模型这几年变成了一个很热的词,但它正在同时指向两件并不完全相同的东西: 这页先回答“世界模型现状:从视频模拟到工程闭环”在「思考探索」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先至少读过相关专题入口页;不熟的名词先回术语表或对应专题。 必要时先回 思考探索入口、基础知识 或
-
思考探索:XR2 Gen 2:端侧 AI 与量化部署
读法定位:端侧部署案例;区分公开平台事实、AI Hub proxy 口径和本站判断。回 量化 或 术语表。 下一站:回 思考探索。 - XR2 Gen 2 是什么 :它是面向 standalone MR / VR 头显的空间计算平台,不是单独拿来刷 AI TOPS 的加速器。 - QCS8450 Proxy 怎么用 :
-
思考探索:具身智能现状:VLA、数据工厂与真实闭环
具身智能现在最迷人的地方,也是最容易误判的地方,是 demo 看起来越来越像“机器人真的懂了”。但系统化梳理后的提醒很清楚:真正的问题不只是模型会不会看图出动作,而是它有没有任务状态、会不会拒绝无效指令、能不能从失败中恢复,数据是不是太干净,评测是不是只看了最终状态。 这页先回答“具身智能现状:VLA、数据工厂与真实闭
-
路线图:研究与工程学习路径
当一个知识体系同时覆盖扩散模型、VLM、VLA、量化、训练、推理、世界模型与具身智能时,真正困难的往往不是“资料太少”,而是“资料太多而缺乏路径”。这份学习路径不是简单罗列章节,而是给出一条兼顾研究理解、工程实现和系统判断力的推进顺序。它尤其适合已经具备基础机器学习背景、希望在 3 到 12 个月内建立系统能力的人。
-
路线图:快速对照表
这一页把全站几个核心主题放到同一张地图里,目的不是做百科式罗列,而是帮助你形成一个更稳定的判断框架:这个方向究竟解决什么问题,输入和输出是什么,瓶颈发生在训练、推理、部署还是现实世界交互,学习时哪些数学对象必须看懂、哪些工程对象必须跟住。 如果把整站内容看成一个 AI 系统谱系,可以先用一句话概括: 这几个主题不是平行
-
路线图:常见技术决策与取舍
真实的模型系统建设,很少是“看到一个 SOTA 方法就直接上”。更多时候,团队面对的是一连串不完美选择:要不要换更大模型,还是先做检索?要不要做量化,还是先蒸馏?要不要追求一步生成,还是接受十几步但更稳?要不要端到端 VLA,还是保留分层控制?这些问题没有脱离场景的标准答案,但它们确实存在一组反复出现的决策模式。本文试
-
强化学习:verl 训练流程:从配置到 RL 更新
本页按用户更正后的仓库 verl-project/verl 展开。verl 是大模型强化学习后训练框架,论文背景是 HybridFlow: A Flexible and Efficient RLHF Framework。这里不复述安装命令,而是讲清代码流:配置如何进入 trainer,rollout/reward/cr
-
强化学习:世界模型中的强化学习
世界模型的核心不是“生成未来帧”,而是“预测动作后果,并让这些预测能改善决策”。强化学习在这里有三种作用:训练策略、训练或校准世界模型、把世界模型接入规划闭环。 这页先回答“世界模型中的强化学习”在「强化学习」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先懂概率、优化和基本训练曲
-
强化学习:Policy Gradient 到 PPO / GRPO
这页从“采样为什么能学习”讲到 PPO 和 GRPO。目标不是推完所有数学细节,而是让你理解:为什么大模型后训练需要 rollout、reward、advantage、reference/KL,以及 verl 这类框架为什么围绕 actor、rollout、critic 和 reward 组织。 这页先回答“Polic
-
强化学习:MDP、价值函数与 Bellman
强化学习的基础不是某个算法,而是一套描述闭环决策的语言。只要把 state 、 action 、 reward 、 policy 、 value 和 Bellman equation 理顺,后面的 PPO、GRPO、Dreamer 和世界模型都会清楚很多。 这页先回答“MDP、价值函数与 Bellman”在「强化学习」