基础知识:论文专题前置知识地图
论文专题讲解覆盖的论文很多:高效训练、推理、扩散、VLA、世界模型、几何视觉和大模型技术报告都有。真正难的不是“论文太多”,而是它们默认读者已经掌握几套公共语言:张量和注意力怎么流动,训练目标在约束什么,推理成本从哪里来,实验表到底证明了什么。
这页先回答“论文专题前置知识地图”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。
前置:先看本页要补哪一个最小概念;公式或术语卡住时回到术语表,不需要一次吃完整个数学体系。 必要时先回 基础知识入口 或 术语表。
主线关系:把符号、张量、优化、评测和运行时这些前置打稳,后面的扩散、VLM/VLA、训练与系统页才不会断层。
这一页是读完基础知识后的论文导航,不是新手第一站。建议先读 符号与最小数学地图、张量、Shape 与计算图、Transformer 输入与注意力、概率与潜变量模型 和 优化与训练入门,再用本页判断:读到某个概念卡住时,应该回前面哪一页补。
本页不按“从零教程”写,而按论文类型组织。读单篇论文时,先找它属于哪一类,再回看对应的基础页。这样可以避免一上来被所有专题名词淹没。
总图:论文专题需要的六层前置知识
flowchart TB
A["表示层
tensor / token / embedding / latent / state"] --> B["结构层
Attention / MLP / Conv / SSM / MoE"]
B --> C["目标层
loss / likelihood / score / reward / distillation"]
C --> D["训练层
optimizer / data mixture / curriculum / stability"]
D --> E["执行层
memory / dtype / kernel / runtime / communication"]
E --> F["证据层
benchmark / ablation / system profiling / real deployment"]
A --> A1["VLM / VLA / world model
需要知道输入到底是什么状态"]
C --> C1["Diffusion / RL / QAT
需要知道优化目标在逼近什么"]
E --> E1["EAGLE / KVSlimmer / Megatron / FP8
需要知道成本瓶颈在哪里"]
F --> F1["所有论文
需要分清 claim、evidence 和外推边界"]
读论文时先不要急着记方法名。遇到一个新术语,先问它属于哪一层:是在改输入表示,改模型结构,改训练目标,改执行系统,还是改评测证据?能放到这张图里,论文就会从“名词堆”变成一条数据流。
先补一个通用读法:变量、路径、证据
所有专题页都可以用同一套三步读法。
flowchart LR
P["1. 变量
输入、状态、动作、token、latent 是什么"] --> M["2. 路径
数据如何经过模型、loss、runtime"]
M --> E["3. 证据
图表、消融、系统测量证明了什么"]
E --> B["4. 边界
哪些结论不能直接外推"]
B --> P
| 读论文时先问 | 具体问题 | 回看页面 |
|---|---|---|
| 变量是什么 | token、patch、latent、state、action、KV cache、expert、depth/disparity 分别是什么形状和语义 | 张量、Shape 与计算图、Transformer 输入与注意力、多模态推理入门 |
| 路径怎么走 | 数据如何进入模型,训练时哪些模块更新,推理时哪些模块缓存或复用 | 自动微分与激活显存、数值、显存与运行时 |
| 目标约束什么 | 这是 next-token、denoising、score matching、reward maximization、distillation 还是 reconstruction | 概率与潜变量模型、优化与训练入门 |
| 证据强不强 | benchmark、ablation、human eval、runtime profiling、真实机器人闭环分别支持什么 | 数据划分与评测指标、训练评测与消融方法 |
你可能缺的前置知识
从现有论文专题反推,前面最值得补强的是下面这些“跨专题接口”。很多内容前面已经分散讲过,这里把它们组织成读论文时的入口。
| 缺口 | 为什么会卡论文 | 已有补课入口 |
|---|---|---|
| 证据等级与外推边界 | 技术报告和系统论文常把 benchmark、demo、ablation、吞吐表混在一起,不分清会误判结论强度 | 数据划分与评测指标、训练评测与消融方法 |
| Attention 与 KV 的执行成本 | EAGLE、KVSlimmer、MLA、RingAttention、长上下文报告都默认你懂 prefill/decode/KV cache | Transformer 输入与注意力、位置编码与 Mask、推理系统路线图 |
| MoE、MTP、SSM、稀疏结构的分工 | DeepSeek、Qwen、Kimi、Nemotron 报告会同时出现 MoE、MTP、Mamba、GQA/MLA、routing | MoE 与大模型架构表、Mamba 与混合 SSM 架构、MTP 与投机解码、MoE Serving |
| 扩散目标、采样器和少步蒸馏 | DPM-Solver++、DMD、DMD2、Phased DMD、CausVid、Self Forcing 都在改采样路径或训练-推理分布 | Score Matching 到 SDE、采样与推理加速、一步生成、蒸馏与整流 |
| 世界模型里的状态、动作和 rollout | PlaNet/Dreamer、JEPA/V-JEPA、Genie、LingBot-World、DreamZero 都在争论“预测什么状态、给谁用” | 概率与潜变量模型、RSSM、Dreamer 与规划、VLA、WAM 与世界模型地图 |
| 机器人几何与动作接口 | Depth Anything、VGGT、SpatialVLA、Fast-FoundationStereo、RT/GR/π0.5 都需要相机、深度、坐标和动作表示 | 卷积与视觉特征、相机、深度与机器人视觉、动作表示与控制接口 |
| 低比特、kernel 与 runtime 的真实收益 | Low-bit LLM Survey、Attn-QAT、DeepSeek FP8/FP4、KVSlimmer 都要求你区分保存格式、计算格式和硬件路径 | 数值、显存与运行时、量化路线图、算子专题路线图 |
按论文专题分组补前置
下面不是重复论文目录,而是每组论文的“最小前置知识”。读某一组时,先会这些就够进入正文;细节可以边读边补。
高效训练论文
对应论文:Megatron-LM、ZeRO、Muon、MagiAttention、SLA/SLA2、Attn-QAT。
flowchart LR
A["Transformer block"] --> B["Parallelism
TP / PP / DP / EP / CP"]
B --> C["Memory states
parameters / gradients / optimizer / activations"]
C --> D["Numerics
FP16 / BF16 / FP8 / FP4 / scaling"]
D --> E["Throughput evidence
MFU / scaling / kernel speed"]
| 读这组前先会 | 会帮你读懂什么 | 补课入口 |
|---|---|---|
| 线性层、attention 和 Transformer block 的 shape | Megatron 的 column/row parallel、attention head parallel、SLA 的 sparse/linear attention | 线性层、MLP 与 GEMM、Transformer 输入与注意力 |
| 参数、梯度、优化器状态和 activation 分别占多少显存 | ZeRO 为什么分 stage,checkpointing 为什么省显存但耗算力 | 自动微分与激活显存、分布式训练与 Checkpointing |
| dtype、scale、outlier 和累加精度 | Attn-QAT、FP8/FP4、NVFP4 为什么不能只看 bitwidth | 数值、显存与运行时、FP8 与混合精度服务 |
| 优化器更新方向与训练稳定性 | Muon、MuonClip 为什么关心矩阵更新、谱范数和大规模预训练稳定性 | 优化与训练入门 |
高效推理论文
对应论文:EAGLE、EAGLE-2、EAGLE-3、Low-bit LLM Survey、KVSlimmer、Fast-FoundationStereo。
flowchart LR
A["Request"] --> B["Prefill / feature extraction"]
B --> C["Cache or intermediate state"]
C --> D["Decode / refinement / rollout"]
D --> E["Verification or quality gate"]
E --> F["Latency / throughput / accuracy trade-off"]
| 读这组前先会 | 会帮你读懂什么 | 补课入口 |
|---|---|---|
| prefill、decode、KV cache、batch 和 P95/P99 | EAGLE 系列为什么受 acceptance、batch、verify overhead 影响 | 推理系统路线图、缓存、路由与投机解码 |
| draft/target 分布一致性和多步误差 | EAGLE 的 feature uncertainty、EAGLE-3 的 training-time test | 概率与潜变量模型、MTP 与投机解码 |
| 量化到底省权重、激活还是 KV | Low-bit LLM Survey 的 W-only、W&A、KV quant、QAT/PTQ | 量化路线图、数值、显存与运行时 |
| Key/Value 的语义差异和 attention 输出路径 | KVSlimmer 为什么只合并 Key 更稳 | Transformer 输入与注意力、位置编码与 Mask |
| 视觉感知 pipeline 的 stage latency | Fast-FoundationStereo 为什么把 feature backbone、cost filtering、refinement 分开压缩 | 卷积与视觉特征、相机、深度与机器人视觉 |
扩散与视频生成论文
对应论文:DPM-Solver++、DMD、DMD2、Diffusion Forcing、CausVid、Wan、Phased DMD。
flowchart TB
A["Data sample x0"] --> B["Forward noising
x_t"]
B --> C["Denoiser / score / velocity"]
C --> D["Sampler
many steps or few steps"]
D --> E["Distilled generator
1-step / 2-step / 4-step"]
E --> F["Video/world model constraints
causal / action / long horizon"]
| 读这组前先会 | 会帮你读懂什么 | 补课入口 |
|---|---|---|
| score、噪声日程、 参数化 | DPM-Solver++、DMD 系列所有公式的变量含义 | Score Matching 到 SDE、噪声日程与参数化 |
| ODE/SDE 采样和步数-质量权衡 | DPM-Solver++ 为什么能高阶求解,少步生成为什么难 | 采样与推理加速 |
| distribution matching、teacher/student、fake score | DMD、DMD2、Phased DMD 为什么不是普通监督蒸馏 | 一步生成、蒸馏与整流 |
| 视频 token、因果 rollout、训练-推理分布偏移 | CausVid、Diffusion Forcing、Self Forcing、LingBot-World 的连接 | 视频与多模态扩散、视频表征与长时记忆 |
具身智能与几何视觉论文
对应论文:RT-2、GR-2、GR-3、π0.5、DreamZero、VPP、SpatialVLA、Depth Anything 系列、VGGT、Fast-FoundationStereo。
flowchart LR
A["Sensors
RGB / depth / stereo / multi-view"] --> B["State
features / depth / point cloud / tokens"]
B --> C["Policy or world model
VLA / WAM / VPP"]
C --> D["Action
pose / joints / gripper / language"]
D --> E["Closed-loop outcome
success / recovery / safety"]
| 读这组前先会 | 会帮你读懂什么 | 补课入口 |
|---|---|---|
| 相机内外参、深度、disparity、点云、多视角几何 | Depth Anything 3、VGGT、Fast-FoundationStereo 的几何主张 | 相机、深度与机器人视觉、卷积与视觉特征 |
| 行为克隆、covariate shift、动作 chunk 和控制接口 | RT-2、GR、π0.5、SpatialVLA 的训练和部署边界 | VLA 数据与策略学习、动作分块、层级策略与潜在技能 |
| VLM 视觉 token 和语言-动作对齐 | 为什么 web-scale video / VLM prior 能迁移到机器人,但不能自动保证控制可靠 | VLM 架构:视觉表征、连接器与记忆、多模态推理入门 |
| 闭环评测、失败恢复和安全约束 | 为什么真实机器人实验不能只看离线 loss 或单次成功率 | VLA 闭环恢复与失败分析、具身部署模式与安全案例 |
世界模型论文
对应论文:PlaNet、Dreamer、DreamerV2/V3、JEPA/H-JEPA/V-JEPA、Genie、LWM、RingAttention、Towards Video World Models、LingBot-World、World Model Survey。
flowchart TB
A["Observation history"] --> B["Latent state or token memory"]
B --> C["Dynamics model
predict next state / video / reward"]
C --> D["Planner / actor / simulator / data engine"]
D --> E["Evaluation
control return / action sensitivity / long-horizon consistency"]
| 读这组前先会 | 会帮你读懂什么 | 补课入口 |
|---|---|---|
| latent variable、posterior/prior、reconstruction 和 reward prediction | PlaNet/Dreamer 的 RSSM、imagined rollout 和 actor-critic | 概率与潜变量模型、RSSM、Dreamer 与规划 |
| 表征预测 vs 像素生成 | JEPA/V-JEPA/H-JEPA 为什么不直接重建所有像素 | VLM 架构:视觉表征、连接器与记忆、视频表征与长时记忆 |
| 动作条件、反事实分叉和 rollout 漂移 | DreamZero、LingBot-World、Genie 是否真的能支持决策 | VLA、WAM 与世界模型地图、世界模型评测与失效模式 |
| 长上下文系统成本 | LWM、RingAttention 为什么把 context length 和训练基础设施放到能力核心 | 位置编码与 Mask、长上下文与 FlashAttention 演进 |
技术报告
对应报告:DeepSeek-V3/V4、DeepSeek-R1、Qwen3、Qwen3.5-Omni、Kimi K2、Nemotron 3 Super、Gemini 2.5、GPT-4o System Card。
flowchart LR
A["Base pretraining
data + architecture + infra"] --> B["Post-training
SFT / reward / RL / distillation"]
B --> C["Inference product
context / tools / multimodal / safety"]
C --> D["System card evidence
capability / risk / deployment limits"]
| 读这组前先会 | 会帮你读懂什么 | 补课入口 |
|---|---|---|
| MoE、routing、activated params 和 total params | DeepSeek、Qwen、Kimi、Nemotron 的模型规模表 | MoE 与大模型架构表、MoE 路由与多模型服务、Mamba 与混合 SSM 架构 |
| 预训练、SFT、偏好训练、RLHF/GRPO 的阶段差异 | DeepSeek-R1、Qwen3、Kimi K2 的后训练 pipeline | 预训练、微调与对齐、Policy Gradient、PPO 与 GRPO |
| agentic data、tool use、judge model 和回流数据 | Kimi K2、Gemini 2.5、Qwen3.5-Omni 的数据系统 | 后训练数据引擎与 Judge Model、Prompt、CoT 与 RAG 入门 |
| 系统卡和安全评估怎么读 | GPT-4o System Card、Gemini 2.5 的风险和能力证据边界 | 数据划分与评测指标、多模态评测与失败模式 |
读论文时最容易混的十组概念
| 容易混的词 | 区分方法 |
|---|---|
model size vs activated params |
MoE 总参数是容量,activated params 更接近单 token 计算量;细节见 MoE 与大模型架构表 |
FLOPs vs latency |
FLOPs 是计算量,latency 还受 memory、kernel、batch、调度和通信影响 |
compression ratio vs quality retained |
压缩率高不等于可用,必须看任务桶、长尾和回归集 |
feature vs latent state |
feature 常是表征,latent state 通常还承担动态预测或不确定性 |
video prediction vs world model |
会预测视频不等于动作条件下的未来可用于规划 |
distillation vs fine-tuning |
distillation 学 teacher 分布或中间信号,fine-tuning 用任务数据更新能力 |
QAT vs PTQ |
QAT 训练时模拟低精度误差,PTQ 部署前校准/重建已有模型 |
benchmark score vs deployment readiness |
benchmark 是公开任务证据,部署还要看延迟、稳定性、安全、回滚和监控 |
CoT length vs reasoning quality |
推理 token 是资源,不是越长越好;要看可控预算和正确率 |
zero-shot generalization vs closed-loop robustness |
未见数据上预测好,不等于机器人闭环遇到扰动能恢复 |
最短学习路线
如果目标是尽快读懂论文专题,而不是系统学习全部课程,可以按下面顺序补:
- Transformer 输入与注意力:解决 token、attention、KV、上下文成本。
- 概率与潜变量模型:解决 generative model、latent、uncertainty。
- 优化与训练入门:解决 loss、gradient、optimizer、训练稳定。
- 数值、显存与运行时:解决 dtype、memory、bandwidth、runtime。
- 数据划分与评测指标:解决 benchmark、ablation、证据强度。
- 按论文方向补专题页:技术报告先读 MoE 与大模型架构表,扩散读 采样与推理加速,VLA 读 动作表示与控制接口,世界模型读 RSSM、Dreamer 与规划,推理系统读 推理系统路线图。
读完这页应该能做什么
你不需要马上掌握每个公式,但应该能做到三件事:
- 看到一篇论文,先判断它主要在改表示、结构、目标、训练、执行还是证据;
- 读到图表时,能区分它证明的是机制、消融、系统吞吐、benchmark 还是 demo;
- 卡住时知道回前面哪一页补,而不是在模型名字之间来回跳。
这就是论文专题前置知识的真正作用:让每篇论文变成可比较、可复用、可质疑的工程材料。
- 回到本专题入口:基础知识,确认这页在整条路线中的位置。
- 按导航顺序继续:index。
- 概念或符号卡住时,先查 术语表,再回到当前页。
- Title: 基础知识:论文专题前置知识地图
- Author: Charles
- Created at : 2025-07-04 09:00:00
- Updated at : 2025-07-04 09:00:00
- Link: https://charles2530.github.io/2025/07/04/ai-files-foundations-paper-reading-prerequisites/
- License: This work is licensed under CC BY-NC-SA 4.0.