基础知识:符号与最小数学地图
这页是基础知识模块的随手查表。第一次读 AI 教程时,真正卡人的往往不是公式本身,而是符号没有说明: 是输入还是图像, 是权重还是宽度, 是图像高度还是预测 horizon。
这页先回答“符号与最小数学地图”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。
前置:先看本页要补哪一个最小概念;公式或术语卡住时回到术语表,不需要一次吃完整个数学体系。 必要时先回 基础知识入口 或 术语表。
主线关系:把符号、张量、优化、评测和运行时这些前置打稳,后面的扩散、VLM/VLA、训练与系统页才不会断层。
看到公式先不要急着推导。按四步读:谁是输入,谁是输出,条件是什么,模型在优化什么。只要这四件事能说清,大多数公式都会从“看不懂的数学”变成“数据流的压缩写法”。
Shape 字母:先知道张量有多大
Shape 是模型模块之间的接口契约。本站会尽量沿用下面的写法。
| 符号 | 读法 | 常见含义 | 小例子 |
|---|---|---|---|
| batch size | 一次处理多少样本 | B=8 表示 8 条样本一起算 |
|
| sequence length | token 数或序列长度 | 文本长度、视觉 token 数 | |
| hidden dimension | 每个 token 的向量维度 | D=4096 |
|
| channel | 图像通道或特征通道 | RGB 图像里 C=3 |
|
| image height | 图像高度 | 224 像素 | |
| image width | 图像宽度 | 224 像素 | |
| patch size | 图像 patch 边长 | ViT 常见 P=16 |
|
| token 或样本数量 | 具体含义看上下文 | 个 patch、 条数据 | |
| time length | 时间步或总序列长度 | 16 帧视频、64 步轨迹 |
一个文本 batch 常写成:
读作: 是一个三维张量,有 条样本,每条样本有 个 token,每个 token 是 维向量。
在图像里常是 height,在世界模型里常是 horizon,在 attention 里也可能是 head 数。教程会尽量写成 、、 来避免混淆。
模型和参数:谁在被训练
| 符号 | 读法 | 含义 |
|---|---|---|
| f theta | 参数为 的模型函数 | |
| theta | 模型参数的集合 | |
| weight matrix | 权重矩阵 | |
| bias | 偏置 | |
| hidden state | 中间隐藏表示 | |
| latent state | 模型内部压缩状态 | |
| y hat | 模型预测值 | |
| y | 真实标签或目标输出 |
最常见的线性层公式是:
逐项读:
| 部分 | 含义 |
|---|---|
| 输入向量或输入张量 | |
| 可训练权重,决定怎么重新组合输入特征 | |
| 偏置,让输出可以整体平移 | |
| 输出表示 |
如果写成 ,意思就是“模型用参数 处理输入 ,得到预测 ”。
概率符号:模型在给可能性打分
| 符号 | 读法 | 含义 |
|---|---|---|
| probability of x | 出现的概率或密度 | |
| model distribution | 参数为 的模型分布 | |
| y given x | 给定 时 的条件概率 | |
| q phi | 参数为 的近似后验或推断模型 | |
| log probability | 对数概率,训练里更容易相加 | |
| Gaussian density | 在变量 上取值或采样的高斯分布; 是均值, 是协方差 |
注意两种常见写法的区别: 把“变量、均值、协方差”三个位置都写出来; 是采样简写,左边的 已经说明变量,所以括号里只剩“均值 0、协方差 ”。
条件概率里的竖线 读作“given”。例如:
读作:给定输入 ,模型输出 的概率。它不保证 一定正确,只表示模型认为哪个输出更可能。
在 VLA 或世界模型里常见:
读作:给定当前 latent state 和动作 ,模型预测下一步 latent state 的分布。
Loss、梯度和优化:模型怎么变好
| 符号 | 读法 | 含义 |
|---|---|---|
| loss | 损失函数,衡量预测和目标的差距 | |
| per-example loss | 单个样本的损失 | |
| gradient w.r.t. theta | loss 对参数 的梯度 | |
| learning rate | 学习率,每次更新走多大一步 | |
| update to | 更新赋值 |
最小训练更新可以写成:
逐项读:
| 部分 | 含义 |
|---|---|
| 当前模型参数 | |
| 哪个方向会让 loss 变大 | |
| 往相反方向走,通常能让 loss 变小 | |
| 步长,太大可能发散,太小会很慢 |
代码里它大致对应:
1 | loss.backward() |
求和、期望和范数:把很多样本合起来
| 符号 | 读法 | 含义 |
|---|---|---|
| sum over i | 对很多项求和 | |
| product over i | 对很多项连乘 | |
| expectation | 对随机样本取平均意义上的值 | |
| L2 norm | 向量长度 | |
| squared L2 distance | MSE 常见形式 | |
| KL divergence | 两个分布差多少 |
例如行为克隆损失:
可以拆成一句话:训练集 里每条样本都有观测 、语言 、专家动作 ;我们让策略 更倾向于在同样输入下输出专家动作。
时间下标:模型在第几步看见什么
| 符号 | 含义 |
|---|---|
| 当前时间步 | |
| 下一步 | |
| 第 步观测 | |
| 第 步动作 | |
| 从过去到当前的所有观测 | |
| 从 开始的一段动作序列 | |
| 预测 horizon,往未来看多少步 |
例如:
读作:策略根据到目前为止的观测 和语言指令 ,输出当前动作 的概率或动作值。
复杂度符号:为什么有的模型跑不动
| 写法 | 直觉 |
|---|---|
| 序列长度翻倍,成本大约翻倍 | |
| 序列长度翻倍,成本大约变四倍 | |
| batch、长度、维度都会线性增加成本 | |
| 一个 hidden tensor 的大致显存 |
Attention 最常见的成本提醒是:
也就是说,token 数 一多,注意力分数矩阵会平方放大。多相机视频、长上下文和多轮对话都容易在这里变贵。
读公式的固定四问
以后在基础页或论文页看到公式,可以按下面四问走:
- 输入是什么:、、、 分别来自哪里?
- 输出是什么:预测 token、动作、latent、reward,还是概率?
- 条件是什么:竖线 后面的变量是不是都在模型可见范围内?
- 优化什么:loss 是让输出更像标签,还是让分布、风险、奖励或成本更好?
如果这四问答不清,先回到本页查符号,再继续读具体模型。
- 回到本专题入口:基础知识,确认这页在整条路线中的位置。
- 按导航顺序继续:张量、Shape 与计算图。
- 概念或符号卡住时,先查 术语表,再回到当前页。
- Title: 基础知识:符号与最小数学地图
- Author: Charles
- Created at : 2026-05-13 09:00:00
- Updated at : 2026-05-13 09:00:00
- Link: https://charles2530.github.io/2026/05/13/ai-files-foundations-symbols-and-minimal-math/
- License: This work is licensed under CC BY-NC-SA 4.0.