基础知识:符号与最小数学地图
这页是基础知识模块的随手查表。第一次读 AI 教程时,真正卡人的往往不是公式本身,而是符号没有说明: 是输入还是图像, 是权重还是宽度, 是图像高度还是预测 horizon。
看到公式先不要急着推导。按四步读:谁是输入,谁是输出,条件是什么,模型在优化什么。只要这四件事能说清,大多数公式都会从“看不懂的数学”变成“数据流的压缩写法”。
1. Shape 字母:先知道张量有多大
Shape 是模型模块之间的接口契约。本站会尽量沿用下面的写法。
| 符号 | 读法 | 常见含义 | 小例子 |
|---|---|---|---|
| batch size | 一次处理多少样本 | B=8 表示 8 条样本一起算 |
|
| sequence length | token 数或序列长度 | 文本长度、视觉 token 数 | |
| hidden dimension | 每个 token 的向量维度 | D=4096 |
|
| channel | 图像通道或特征通道 | RGB 图像里 C=3 |
|
| image height | 图像高度 | 224 像素 | |
| image width | 图像宽度 | 224 像素 | |
| patch size | 图像 patch 边长 | ViT 常见 P=16 |
|
| token 或样本数量 | 具体含义看上下文 | 个 patch、 条数据 | |
| time length | 时间步或总序列长度 | 16 帧视频、64 步轨迹 |
一个文本 batch 常写成:
读作: 是一个三维张量,有 条样本,每条样本有 个 token,每个 token 是 维向量。
在图像里常是 height,在世界模型里常是 horizon,在 attention 里也可能是 head 数。教程会尽量写成 、、 来避免混淆。
2. 模型和参数:谁在被训练
| 符号 | 读法 | 含义 |
|---|---|---|
| f theta | 参数为 的模型函数 | |
| theta | 模型参数的集合 | |
| weight matrix | 权重矩阵 | |
| bias | 偏置 | |
| hidden state | 中间隐藏表示 | |
| latent state | 模型内部压缩状态 | |
| y hat | 模型预测值 | |
| y | 真实标签或目标输出 |
最常见的线性层公式是:
逐项读:
| 部分 | 含义 |
|---|---|
| 输入向量或输入张量 | |
| 可训练权重,决定怎么重新组合输入特征 | |
| 偏置,让输出可以整体平移 | |
| 输出表示 |
如果写成 ,意思就是“模型用参数 处理输入 ,得到预测 ”。
3. 概率符号:模型在给可能性打分
| 符号 | 读法 | 含义 |
|---|---|---|
| probability of x | 出现的概率或密度 | |
| model distribution | 参数为 的模型分布 | |
| y given x | 给定 时 的条件概率 | |
| q phi | 参数为 的近似后验或推断模型 | |
| log probability | 对数概率,训练里更容易相加 | |
| Gaussian | 均值为 、协方差为 的高斯分布 |
条件概率里的竖线 读作“given”。例如:
读作:给定输入 ,模型输出 的概率。它不保证 一定正确,只表示模型认为哪个输出更可能。
在 VLA 或世界模型里常见:
读作:给定当前 latent state 和动作 ,模型预测下一步 latent state 的分布。
4. Loss、梯度和优化:模型怎么变好
| 符号 | 读法 | 含义 |
|---|---|---|
| loss | 损失函数,衡量预测和目标的差距 | |
| per-example loss | 单个样本的损失 | |
| gradient w.r.t. theta | loss 对参数 的梯度 | |
| learning rate | 学习率,每次更新走多大一步 | |
| update to | 更新赋值 |
最小训练更新可以写成:
逐项读:
| 部分 | 含义 |
|---|---|
| 当前模型参数 | |
| 哪个方向会让 loss 变大 | |
| 往相反方向走,通常能让 loss 变小 | |
| 步长,太大可能发散,太小会很慢 |
代码里它大致对应:
1 | loss.backward() |
5. 求和、期望和范数:把很多样本合起来
| 符号 | 读法 | 含义 |
|---|---|---|
| sum over i | 对很多项求和 | |
| product over i | 对很多项连乘 | |
| expectation | 对随机样本取平均意义上的值 | |
| L2 norm | 向量长度 | |
| squared L2 distance | MSE 常见形式 | |
| KL divergence | 两个分布差多少 |
例如行为克隆损失:
可以拆成一句话:训练集 里每条样本都有观测 、语言 、专家动作 ;我们让策略 更倾向于在同样输入下输出专家动作。
6. 时间下标:模型在第几步看见什么
| 符号 | 含义 |
|---|---|
| 当前时间步 | |
| 下一步 | |
| 第 步观测 | |
| 第 步动作 | |
| 从过去到当前的所有观测 | |
| 从 开始的一段动作序列 | |
| 预测 horizon,往未来看多少步 |
例如:
读作:策略根据到目前为止的观测 和语言指令 ,输出当前动作 的概率或动作值。
7. 复杂度符号:为什么有的模型跑不动
| 写法 | 直觉 |
|---|---|
| 序列长度翻倍,成本大约翻倍 | |
| 序列长度翻倍,成本大约变四倍 | |
| batch、长度、维度都会线性增加成本 | |
| 一个 hidden tensor 的大致显存 |
Attention 最常见的成本提醒是:
也就是说,token 数 一多,注意力分数矩阵会平方放大。多相机视频、长上下文和多轮对话都容易在这里变贵。
8. 读公式的固定四问
以后在基础页或论文页看到公式,可以按下面四问走:
- 输入是什么:、、、 分别来自哪里?
- 输出是什么:预测 token、动作、latent、reward,还是概率?
- 条件是什么:竖线 后面的变量是不是都在模型可见范围内?
- 优化什么:loss 是让输出更像标签,还是让分布、风险、奖励或成本更好?
如果这四问答不清,先回到本页查符号,再继续读具体模型。
- Title: 基础知识:符号与最小数学地图
- Author: Charles
- Created at : 2026-05-16 09:00:00
- Updated at : 2026-05-16 09:00:00
- Link: https://charles2530.github.io/2026/05/16/ai-files-foundations-symbols-and-minimal-math/
- License: This work is licensed under CC BY-NC-SA 4.0.