基础知识:预训练目标与表示学习:模型到底被要求学什么
预训练目标不是训练脚本里的一行 loss。它在规定模型看见什么、预测什么、哪些差异要保留、哪些差异可以忽略。LLM 的 next-token、BERT/MAE 的 masked modeling、CLIP 的对比学习、扩散的 denoising、V-JEPA 的 latent prediction、VLA 的 behavior cloning,表面都是“让模型学表示”,实际学到的接口很不一样。
这页只回答一个核心问题:读到一个预训练目标时,怎样判断它让模型学到了什么表示,又没有学到什么能力?
目标函数是在写信息接口
一个预训练样本可以抽象成:
是模型看到的输入, 是中间表示, 是模型被要求预测的目标。loss 会把某些信息压进 ,也会允许模型丢掉另一些信息。表示学习的核心不是“向量越强越好”,而是这个向量对目标 是否足够,对无关扰动是否稳定。
所以读目标函数时先问三件事。第一,目标 是什么:下一个 token、mask 区域、匹配关系、原始像素、噪声、未来 latent,还是专家动作?第二,模型能偷懒吗:是否可以靠局部纹理、数据偏差、语言先验或静态背景拿低 loss?第三,下游任务需要的变量是否在目标里出现:动作、reward、风险、时间一致性、工具执行、事实证据有没有进入训练信号?
Next-token:预测续写,不等于验证事实
自回归语言模型的基础目标是最大化序列似然:
它要求模型根据历史前缀预测下一个 token。这个目标极其可扩展,因为文本、代码、图像 token、视频 token、动作 token 都可以排成序列。模型为了降低 loss,会学语法、知识、风格、代码模式、推理痕迹和很多隐含结构。
但 next-token 的训练信号只告诉模型“数据里下一个 token 常是什么”。它不直接验证事实是否真实、代码是否运行、工具调用是否成功、动作是否安全。后训练、RAG、verifier、RL、结构化解码和评测系统,本质上是在补 next-token 没有显式定义的外部约束。
一个常见误解是:next-token 太简单,所以只能学表面统计。更准确的说法是:简单目标可以在巨大数据和模型容量下诱导丰富能力,但这些能力的边界取决于数据分布和评测接口。模型会学会“像训练语料里的正确答案”,不自动拥有“对现实世界负责”的机制。
Masked modeling:补空缺时学上下文结构
Masked modeling 把输入的一部分遮住,让模型预测被遮住的内容:
BERT 预测被 mask 的文本 token;MAE 把图像切成 patch,只编码少量可见 patch,再重建被遮住的像素;V-JEPA 则预测 target encoder 产生的 latent,而不是复原像素。
这三者差别很关键。预测 token 会学语义和语言上下文;预测像素会保留低层视觉细节;预测 latent 会鼓励模型忽略一些纹理噪声,保留更抽象的时空结构。目标看起来都叫 mask,表示学到的东西却不同。

图源:V-JEPA: Latent Video Prediction for Visual Representation Learning,Figure 3。原图表达 context encoder 只处理未遮挡视频 token,predictor 结合 context output 和 mask tokens 去预测 target encoder 的 masked token representations。本站读法是看预测目标:V-JEPA 不是让模型画回像素,而是让模型在 latent 空间补全缺失时空结构,因此它更像表征预训练,不是完整动作世界模型。
Masked 目标的边界也在这里。它能学上下文和结构,但不保证自回归生成能力;能学视频表征,但如果没有 action、reward、done 或 closed-loop 反馈,就不能直接说明模型会规划。
Contrastive learning:正负样本定义了不变性
对比学习的核心是:把正样本拉近,把负样本推远。InfoNCE 常见写法是:
这里 是 query 表示, 是正样本, 是负样本, 是 temperature。这个公式真正重要的不是分母长什么样,而是正负样本怎么定义。
在 SimCLR 里,同一张图的两种增强视图是正样本,所以表示会对 crop、color jitter、blur 等增强保持稳定。在 CLIP 里,图像和配套文本是正样本,所以模型学的是图文语义对齐,而不是像素重建或动作后果。

图源:Learning Transferable Visual Models From Natural Language Supervision,Figure 1。原图表达 CLIP 用大量 image-text pairs 做对比预训练,再把类别写成文本 prompts,通过图文 embedding 相似度完成 zero-shot prediction。本站读法是:CLIP 的表示适合语义检索和开放类别识别,但图文相似度高不等于会预测物体被推动后的状态。
对比学习的能力来自“哪些变化被视作同一个对象”。如果增强策略把小物体、文字、空间位置或接触点当成可忽略扰动,表示就可能在机器人、OCR、图表理解里丢掉关键细节。正样本和负样本不是采样小事,而是在写模型的不变性。
Reconstruction:重建细节,不等于保留任务状态
Reconstruction 目标让模型从压缩表示还原输入:
Autoencoder、VAE、视觉 tokenizer、视频 VAE 都会用这类目标。它的优势是直观:如果表示能还原输入,说明它保留了大量信息。它的风险也直观:输入里有很多下游不需要的细节,模型可能把容量花在纹理、背景、压缩伪影和静态外观上。
对于生成模型,重建目标常常服务于“把高维像素压到可建模 latent”。Latent diffusion 的 VAE 就是先把图像压到 latent,再在 latent 上训练扩散模型。对于世界模型和 VLA,问题更尖锐:一个 latent 能重建画面,不代表它保留了接触力、可抓取性、风险、动作后果或可规划状态。
因此读 reconstruction 论文时要分清:它是在训练压缩器、视觉 tokenizer、生成 decoder,还是在训练 planner 可用的状态表示。重建好只是第一层证据。
Denoising:学分布方向,而不是一次性输出答案
扩散模型把干净样本逐步加噪,再训练模型从带噪状态恢复:

图源:Denoising Diffusion Probabilistic Models,Figure 2。原图表达前向过程 逐步加噪,反向过程 逐步去噪。本站读法是:denoising 目标不是让模型一步输出最终样本,而是在不同噪声水平学习回到数据分布的方向。
常见训练目标是预测噪声、干净样本、velocity 或 score 的等价形式。它和 next-token 不同:next-token 每步选择离散 token,denoising 则在噪声层级上反复更新样本。这个目标很适合图像、视频、动作轨迹等多峰输出,因为它不必把多个合理结果平均成一个均值。
边界也清楚。训练好 denoising 不等于少步采样一定稳定;图像质量高不等于条件控制强;视频生成连贯不等于能闭环规划。采样器、guidance、distillation、条件编码和评测都会改变最终系统行为。
Behavior cloning:模仿专家,不等于会恢复
行为克隆把策略学习写成监督学习:
是历史观测, 是语言或任务条件, 是专家动作。连续动作也可以用 L1/MSE 或 action diffusion 目标;离散动作可以像 token 一样做 cross entropy。
BC 的优点是稳定、可扩展、能直接吃示范数据。RT-1、RT-2、Open X-Embodiment 和很多 VLA 都依赖这种思想:把机器人行为变成大规模监督学习问题。
但 BC 学的是“专家分布上的动作”。一旦部署时进入专家数据少见的状态,模型可能不知道怎么回来,这就是 covariate shift。它也不直接学习探索、长期 credit assignment、失败恢复或安全约束。要让 VLA 真正可用,通常还需要数据回流、闭环评测、risk head、世界模型、MPC、offline RL 或在线微调。
目标函数要和最终接口对齐
不同目标对应不同接口:
| 目标 | 最擅长提供什么 | 最容易漏掉什么 |
|---|---|---|
| next-token | 续写、代码、语言知识、序列统一接口 | 事实验证、工具执行、动作安全 |
| masked modeling | 上下文补全、局部到全局结构 | 自回归生成、因果动作后果 |
| contrastive | 检索、语义对齐、开放类别识别 | 细粒度几何、生成细节、动力学 |
| reconstruction | 压缩、tokenizer、decoder、保真细节 | 抽象任务状态、风险和可规划性 |
| denoising | 多峰生成、图像/视频/动作分布 | 少步稳定、条件忠实、闭环控制 |
| behavior cloning | 模仿专家动作、快速策略学习 | 分布外恢复、探索、长期规划 |
这张表不是让人选一个“最好目标”,而是提醒:目标函数是在定义模型最先学会的接口。现代系统常常把多个阶段串起来:next-token 打底,SFT 对齐指令,RAG 补外部事实,RL 或 verifier 改善任务收益;VLM 用 contrastive 或 captioning 对齐图文,再接 LLM;VLA 用 web-scale VLM 先学语义,再用机器人数据把语义接到动作。
读完以后怎么判断
预训练目标决定模型被奖励去保留什么信息。Next-token 奖励可续写性,masked modeling 奖励上下文补全,contrastive 奖励正样本不变性,reconstruction 奖励可还原性,denoising 奖励分布方向,behavior cloning 奖励专家动作匹配。
读论文时不要只问“loss 降了吗”,要问目标是否包含下游需要的变量。CLIP 学到图文语义,不等于学到动作后果;V-JEPA 学到视频 latent,不等于直接能闭环控制;BC 学到专家动作,不等于能从偏离状态恢复;扩散学到生成分布,不等于少步实时控制。把目标和接口对齐,才知道一个预训练方法该期待什么、不该期待什么。
外部精读
相关阅读与下一步
- 外部材料:The Illustrated Transformer。
- 外部材料:Dive into Deep Learning。
- 外部材料:Distill Circuits。
- 站内下一步:基础概念专题。
- 站内下一步:Transformer 输入与注意力。
- 站内下一步:数值、内存与运行时基础。
- Title: 基础知识:预训练目标与表示学习:模型到底被要求学什么
- Author: Charles
- Created at : 2026-04-24 09:00:00
- Updated at : 2026-04-24 09:00:00
- Link: https://charles2530.github.io/2026/04/24/ai-files-foundations-pretraining-objectives-and-representation-learning/
- License: This work is licensed under CC BY-NC-SA 4.0.