基础知识:符号与最小数学地图

基础知识:符号与最小数学地图

Charles Lv8

这页是基础知识模块的随手查表。第一次读 AI 教程时,真正卡人的往往不是公式本身,而是符号没有说明:xx 是输入还是图像,WW 是权重还是宽度,HH 是图像高度还是预测 horizon。

初学者先抓住

看到公式先不要急着推导。按四步读:谁是输入,谁是输出,条件是什么,模型在优化什么。只要这四件事能说清,大多数公式都会从“看不懂的数学”变成“数据流的压缩写法”。

1. Shape 字母:先知道张量有多大

Shape 是模型模块之间的接口契约。本站会尽量沿用下面的写法。

符号 读法 常见含义 小例子
BB batch size 一次处理多少样本 B=8 表示 8 条样本一起算
LL sequence length token 数或序列长度 文本长度、视觉 token 数
DD hidden dimension 每个 token 的向量维度 D=4096
CC channel 图像通道或特征通道 RGB 图像里 C=3
HimgH_{\text{img}} image height 图像高度 224 像素
WimgW_{\text{img}} image width 图像宽度 224 像素
PP patch size 图像 patch 边长 ViT 常见 P=16
NN token 或样本数量 具体含义看上下文 NN 个 patch、NN 条数据
TT time length 时间步或总序列长度 16 帧视频、64 步轨迹

一个文本 batch 常写成:

xRB×L×Dx \in \mathbb{R}^{B \times L \times D}

读作:xx 是一个三维张量,有 BB 条样本,每条样本有 LL 个 token,每个 token 是 DD 维向量。

同一个字母在不同页面可能换意思

HH 在图像里常是 height,在世界模型里常是 horizon,在 attention 里也可能是 head 数。教程会尽量写成 HimgH_{\text{img}}HhorH_{\text{hor}}HheadsH_{\text{heads}} 来避免混淆。

2. 模型和参数:谁在被训练

符号 读法 含义
fθf_\theta f theta 参数为 θ\theta 的模型函数
θ\theta theta 模型参数的集合
WW weight matrix 权重矩阵
bb bias 偏置
hh hidden state 中间隐藏表示
zz latent state 模型内部压缩状态
y^\hat y y hat 模型预测值
yy y 真实标签或目标输出

最常见的线性层公式是:

y=xW+by = xW + b

逐项读:

部分 含义
xx 输入向量或输入张量
WW 可训练权重,决定怎么重新组合输入特征
bb 偏置,让输出可以整体平移
yy 输出表示

如果写成 y^=fθ(x)\hat y=f_\theta(x),意思就是“模型用参数 θ\theta 处理输入 xx,得到预测 y^\hat y”。

3. 概率符号:模型在给可能性打分

符号 读法 含义
p(x)p(x) probability of x xx 出现的概率或密度
pθ(x)p_\theta(x) model distribution 参数为 θ\theta 的模型分布
p(yx)p(y\mid x) y given x 给定 xxyy 的条件概率
qϕ(zx)q_\phi(z\mid x) q phi 参数为 ϕ\phi 的近似后验或推断模型
logp(x)\log p(x) log probability 对数概率,训练里更容易相加
N(μ,Σ)\mathcal{N}(\mu,\Sigma) Gaussian 均值为 μ\mu、协方差为 Σ\Sigma 的高斯分布

条件概率里的竖线 \mid 读作“given”。例如:

pθ(yx)p_\theta(y \mid x)

读作:给定输入 xx,模型输出 yy 的概率。它不保证 yy 一定正确,只表示模型认为哪个输出更可能。

在 VLA 或世界模型里常见:

pθ(zt+1zt,at)p_\theta(z_{t+1}\mid z_t,a_t)

读作:给定当前 latent state ztz_t 和动作 ata_t,模型预测下一步 latent state zt+1z_{t+1} 的分布。

4. Loss、梯度和优化:模型怎么变好

符号 读法 含义
L\mathcal{L} loss 损失函数,衡量预测和目标的差距
(y^,y)\ell(\hat y,y) per-example loss 单个样本的损失
θL\nabla_\theta \mathcal{L} gradient w.r.t. theta loss 对参数 θ\theta 的梯度
η\eta learning rate 学习率,每次更新走多大一步
\leftarrow update to 更新赋值

最小训练更新可以写成:

θθηθL\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L}

逐项读:

部分 含义
θ\theta 当前模型参数
θL\nabla_\theta \mathcal{L} 哪个方向会让 loss 变大
θL-\nabla_\theta \mathcal{L} 往相反方向走,通常能让 loss 变小
η\eta 步长,太大可能发散,太小会很慢

代码里它大致对应:

1
2
loss.backward()
optimizer.step()

5. 求和、期望和范数:把很多样本合起来

符号 读法 含义
i\sum_i sum over i 对很多项求和
i\prod_i product over i 对很多项连乘
E[]\mathbb{E}[\cdot] expectation 对随机样本取平均意义上的值
x2\|x\|_2 L2 norm 向量长度
xy22\|x-y\|_2^2 squared L2 distance MSE 常见形式
KL(qp)\operatorname{KL}(q\|p) KL divergence 两个分布差多少

例如行为克隆损失:

LBC=(o,l,a)Dlogπθ(ao,l)\mathcal{L}_{\text{BC}} =-\sum_{(o,l,a)\in\mathcal{D}}\log \pi_\theta(a\mid o,l)

可以拆成一句话:训练集 D\mathcal{D} 里每条样本都有观测 oo、语言 ll、专家动作 aa;我们让策略 πθ\pi_\theta 更倾向于在同样输入下输出专家动作。

6. 时间下标:模型在第几步看见什么

符号 含义
tt 当前时间步
t+1t+1 下一步
oto_t tt 步观测
ata_t tt 步动作
oto_{\le t} 从过去到当前的所有观测
at:t+H1a_{t:t+H-1} tt 开始的一段动作序列
HhorH_{\text{hor}} 预测 horizon,往未来看多少步

例如:

πθ(atot,l)\pi_\theta(a_t\mid o_{\le t}, l)

读作:策略根据到目前为止的观测 oto_{\le t} 和语言指令 ll,输出当前动作 ata_t 的概率或动作值。

7. 复杂度符号:为什么有的模型跑不动

写法 直觉
O(L)O(L) 序列长度翻倍,成本大约翻倍
O(L2)O(L^2) 序列长度翻倍,成本大约变四倍
O(BLD)O(BLD) batch、长度、维度都会线性增加成本
B×L×D×bytesB\times L\times D\times bytes 一个 hidden tensor 的大致显存

Attention 最常见的成本提醒是:

score matrix sizeL2\text{score matrix size} \propto L^2

也就是说,token 数 LL 一多,注意力分数矩阵会平方放大。多相机视频、长上下文和多轮对话都容易在这里变贵。

8. 读公式的固定四问

以后在基础页或论文页看到公式,可以按下面四问走:

  1. 输入是什么:xxoto_tztz_tata_t 分别来自哪里?
  2. 输出是什么:预测 token、动作、latent、reward,还是概率?
  3. 条件是什么:竖线 \mid 后面的变量是不是都在模型可见范围内?
  4. 优化什么:loss 是让输出更像标签,还是让分布、风险、奖励或成本更好?

如果这四问答不清,先回到本页查符号,再继续读具体模型。

  • Title: 基础知识:符号与最小数学地图
  • Author: Charles
  • Created at : 2026-05-16 09:00:00
  • Updated at : 2026-05-16 09:00:00
  • Link: https://charles2530.github.io/2026/05/16/ai-files-foundations-symbols-and-minimal-math/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments