路线图:快速对照表
这一页把全站几个核心主题放到同一张地图里,目的不是做百科式罗列,而是帮助你形成一个更稳定的判断框架:这个方向究竟解决什么问题,输入和输出是什么,瓶颈发生在训练、推理、部署还是现实世界交互,学习时哪些数学对象必须看懂、哪些工程对象必须跟住。
如果把整站内容看成一个 AI 系统谱系,可以先用一句话概括:
1 | 表征 |
这几个主题不是平行孤岛,而是不断互相渗透。
这页适合当全站“坐标轴”。先看每个主题的输入、输出、核心问题和瓶颈,再进入具体章节;这样读论文或工程方案时,能更快判断它到底改了系统的哪一层。
扩散关心采样轨迹,VLM 关心跨模态证据,VLA 关心动作闭环,推理关心队列和缓存,量化关心数值误差和 kernel。不同主题的核心对象不同,学习路径也必须不同。
1. 主题总对照
| 主题 | 主要输入 | 主要输出 | 核心问题 | 典型瓶颈 |
|---|---|---|---|---|
| 扩散模型 | 噪声、条件 | 图像/视频样本 | 怎样稳定生成高质量样本 | 采样步数、推理成本 |
| VLM | 图像/视频 + 文本 | 回答、框、工具调用 | 怎样把视觉证据和语言推理连起来 | 视觉细节丢失、评测幻觉 |
| VLA | 观测 + 指令 | 连续或离散动作 | 怎样从感知走到控制 | 延迟、安全、分布偏移 |
| 强化学习 | 状态、动作、奖励、轨迹 | policy、value、world model update | 怎样根据结果改进行为 | reward hacking、分布偏移、闭环失效 |
| 世界模型 | 观测 + 动作 | 潜状态、未来预测 | 怎样内部模拟环境演化 | rollout 漂移、动力学错误 |
| 量化 | 权重/激活/cache | 低比特表示 | 怎样以更低成本保住能力 | 误差控制、kernel 兼容 |
| 训练 | 数据 + 模型 + 算力 | 学得出的参数 | 怎样把能力和行为训出来 | 数据系统、优化稳定性 |
| 推理 | 在线请求 | 在线响应 | 怎样平衡延迟、吞吐和成本 | cache、scheduling、tail latency |
| 具身智能 | 多模态观测 | 物理行动 | 怎样在真实世界可靠执行 | sim2real、安全、闭环 |
2. 各方向最应该理解的“数学对象”不同
很多初学者的困惑不是因为内容太难,而是因为不同主题依赖的数学对象根本不同。
| 主题 | 关键数学对象 | 为什么重要 |
|---|---|---|
| 扩散模型 | 随机变量、SDE/ODE、score、变分目标 | 决定训练和采样如何统一 |
| 强化学习 | policy、value、advantage、Bellman、return | 决定行为如何根据未来回报更新 |
| VLM | 条件概率、交叉注意力、token 压缩 | 决定视觉和语言如何融合 |
| VLA | 策略、动作分布、时序 credit assignment | 决定模型如何输出可执行动作 |
| 世界模型 | 潜变量状态空间、序列预测、规划目标 | 决定内部模拟如何帮助决策 |
| 量化 | 量化误差、缩放、数值范围、误差传播 | 决定压缩是否可控 |
| 推理 | 队列、吞吐、缓存复杂度、内存模型 | 决定线上系统能否稳定 |
一个实用建议是:不要试图用一套“统一数学武器”解决所有方向。不同方向的核心抽象不同,阅读和建模方式也应该不同。
3. 如果按“会不会”和“能不能”来分,全站大致可拆成三层
3.1 第一层:模型会不会
这层关注能力上限,例如模型会不会生成图像、看图说话、学出稳定表征或预测未来状态。对应主题主要是扩散、强化学习、VLM 和世界模型。
3.2 第二层:模型按不按要求做
这层关注行为塑形,包括指令遵循、偏好对齐、工具调用和动作安全。对应主题主要是训练、VLM 工具使用、VLA 和具身智能。
3.3 第三层:模型能不能稳定上线
这层关注系统可用性:延迟是否稳定、成本是否可接受、量化后是否仍可控、故障能否回退。对应主题主要是推理、量化和工程 playbooks。
4. 一张“训练、推理、部署”三层对照
| 层次 | 关注点 | 典型指标 | 常见误判 |
|---|---|---|---|
| 训练层 | loss、收敛、泛化、数据混合 | loss、accuracy、FID、pass@k | loss 降了就等于能上线 |
| 推理层 | 延迟、吞吐、显存、调度 | TTFT、TPOT、QPS、memory | 平均延迟好看就代表系统稳 |
| 部署层 | 稳定性、安全、事故回退、观察性 | P95/P99、成功率、事故率、人工接管率 | 模型强就不需要系统治理 |
5. 用三个例子理解这些方向如何互相连接
例子 A:图文检索系统升级成多模态问答系统
项目起点可能只是用 CLIP/InfoNCE 做静态图文对齐,再离线建立图像索引。当业务升级成多模态问答后,就会自然引入 VLM 做问答和解释、推理系统做缓存与调度、量化降低服务成本。这说明静态图文对齐没有消失,而是被吸收到 VLM/VLA 的表示层里。
例子 B:文生图模型做成可交互创作产品
研究上重点可能是扩散建模、少步采样和蒸馏;产品上很快会新增推理调度、控制模块、成本优化和部署监控。于是扩散、推理和量化会自然连在一起。
例子 C:机器人拾取任务从 imitation 学习走向闭环系统
模型层面可能涉及 VLA 学动作、世界模型做预演、具身智能做安全与反馈闭环;系统层面又会遇到延迟预算、多传感器同步、故障复盘和数据回流。这说明 VLA 和世界模型不是“另一个多模态方向”,而是往真实世界交互继续深入。
6. 一张“最容易掉坑”的对照表
| 主题 | 最常见误判 | 为什么危险 |
|---|---|---|
| 扩散 | 只看采样步数,不看局部质量和条件一致性 | 会把研究上的快误认成产品上的好 |
| VLM | 只看答案流畅,不看视觉证据 | 容易被语言先验骗过 |
| VLA | 只看离线成功率,不看真实控制延迟 | 实机一跑就崩 |
| 强化学习 | 只看 reward 曲线,不看闭环任务 | policy 可能学会投机奖励而非真实能力 |
| 世界模型 | 只看生成视频逼真度 | 画面真不代表动力学真 |
| 量化 | 只看模型大小,不看真实 kernel 和延迟 | 可能压了文件却没提速 |
| 训练 | 只讨论算法,不看数据系统 | 很多失败其实不是算法失败 |
| 推理 | 只看平均延迟,不看尾延迟和回退链路 | 线上会不稳定 |
| 具身智能 | 只看 demo,不看安全和恢复 | 风险极高 |
7. 如果按学习顺序来排,建议这样读
路线一:从模型能力出发
可以从 VLM/VLA、扩散模型、VLM、世界模型依次进入,适合想先建立“模型怎么学出能力”的全局认识。
路线二:从系统落地出发
可以从训练、推理、量化和 Playbooks 依次进入,适合已经接近上线、想把研究方法变成稳定系统的读者。
路线三:从现实交互出发
可以从 VLM、VLA、世界模型和具身智能依次进入,适合关注代理、机器人和长期闭环任务的读者。
8. 一张“研究价值”和“工程价值”对照
| 主题 | 研究价值最强的关注点 | 工程价值最强的关注点 |
|---|---|---|
| 扩散 | 建模与一步生成 | 采样器、蒸馏、部署速度 |
| VLM | 跨模态推理与统一表示 | OCR、文档、工具使用、成本 |
| VLA | 通用动作建模 | 延迟、安全和实机鲁棒性 |
| 强化学习 | 奖励建模、策略优化、world model planning | 后训练、agent、VLA 和闭环数据引擎 |
| 世界模型 | 潜状态与想象规划 | 预测可靠性和可控 rollout |
| 量化 | 低比特误差建模 | 可部署 kernel 和质量稳定性 |
| 训练 | 优化目标与 scaling | 数据生产线和对齐流程 |
| 推理 | 新解码和缓存策略 | 容量规划和服务可用性 |
| 具身智能 | 统一智能体范式 | 真机安全、回退、维护成本 |
9. 为什么这些方向最终会汇成一个系统问题
可以把真实 AI 产品粗略看成下面这个复合映射:
这里,CLIP/InfoNCE 和预训练塑造表示,扩散和世界模型塑造生成与预测,VLM 和 VLA 塑造多模态决策接口,训练塑造行为,推理和量化决定系统是否能跑,具身智能则把这一切放回真实世界闭环。
所以全站真正想建立的不是“十几个技术名词”,而是一个连续的系统视角。
10. 一份阅读建议
如果你希望后面扩写到大体量时仍然不乱,建议把每一篇文档都放回三个问题里:它主要是在提升能力、塑造行为还是降低系统成本;它最依赖的数据对象、数学对象和工程对象分别是什么;它和相邻主题之间的接口在哪里。
只要持续这样读,目录越来越大时反而会更清晰。
11. 推荐跳转
- 看总路线:路线图总览
- 看论文入口:论文专题讲解
- 看扩散主线:扩散模型
- 看多模态主线:VLM
- 看系统层主线:推理
- Title: 路线图:快速对照表
- Author: Charles
- Created at : 2026-02-05 09:00:00
- Updated at : 2026-02-05 09:00:00
- Link: https://charles2530.github.io/2026/02/05/ai-files-roadmap-comparison-tables/
- License: This work is licensed under CC BY-NC-SA 4.0.