基础知识:预训练目标与表示学习:模型到底被要求学什么

基础知识:预训练目标与表示学习:模型到底被要求学什么

Charles Lv8

预训练目标不是训练脚本里的一行 loss。它在规定模型看见什么、预测什么、哪些差异要保留、哪些差异可以忽略。LLM 的 next-token、BERT/MAE 的 masked modeling、CLIP 的对比学习、扩散的 denoising、V-JEPA 的 latent prediction、VLA 的 behavior cloning,表面都是“让模型学表示”,实际学到的接口很不一样。

这页只回答一个核心问题:读到一个预训练目标时,怎样判断它让模型学到了什么表示,又没有学到什么能力?

目标函数是在写信息接口

一个预训练样本可以抽象成:

xhθ(x)y^x \rightarrow h_\theta(x) \rightarrow \hat{y}

xx 是模型看到的输入,hθ(x)h_\theta(x) 是中间表示,y^\hat y 是模型被要求预测的目标。loss 会把某些信息压进 hθ(x)h_\theta(x),也会允许模型丢掉另一些信息。表示学习的核心不是“向量越强越好”,而是这个向量对目标 yy 是否足够,对无关扰动是否稳定。

所以读目标函数时先问三件事。第一,目标 yy 是什么:下一个 token、mask 区域、匹配关系、原始像素、噪声、未来 latent,还是专家动作?第二,模型能偷懒吗:是否可以靠局部纹理、数据偏差、语言先验或静态背景拿低 loss?第三,下游任务需要的变量是否在目标里出现:动作、reward、风险、时间一致性、工具执行、事实证据有没有进入训练信号?

Next-token:预测续写,不等于验证事实

自回归语言模型的基础目标是最大化序列似然:

LNTP=tlogpθ(xtx<t)\mathcal{L}_{\text{NTP}}=-\sum_t \log p_\theta(x_t\mid x_{<t})

它要求模型根据历史前缀预测下一个 token。这个目标极其可扩展,因为文本、代码、图像 token、视频 token、动作 token 都可以排成序列。模型为了降低 loss,会学语法、知识、风格、代码模式、推理痕迹和很多隐含结构。

但 next-token 的训练信号只告诉模型“数据里下一个 token 常是什么”。它不直接验证事实是否真实、代码是否运行、工具调用是否成功、动作是否安全。后训练、RAG、verifier、RL、结构化解码和评测系统,本质上是在补 next-token 没有显式定义的外部约束。

一个常见误解是:next-token 太简单,所以只能学表面统计。更准确的说法是:简单目标可以在巨大数据和模型容量下诱导丰富能力,但这些能力的边界取决于数据分布和评测接口。模型会学会“像训练语料里的正确答案”,不自动拥有“对现实世界负责”的机制。

Masked modeling:补空缺时学上下文结构

Masked modeling 把输入的一部分遮住,让模型预测被遮住的内容:

Lmask=iM(x^i,xi)\mathcal{L}_{\text{mask}}=\sum_{i\in M}\ell(\hat{x}_i,x_i)

BERT 预测被 mask 的文本 token;MAE 把图像切成 patch,只编码少量可见 patch,再重建被遮住的像素;V-JEPA 则预测 target encoder 产生的 latent,而不是复原像素。

这三者差别很关键。预测 token 会学语义和语言上下文;预测像素会保留低层视觉细节;预测 latent 会鼓励模型忽略一些纹理噪声,保留更抽象的时空结构。目标看起来都叫 mask,表示学到的东西却不同。

V-JEPA training procedure

图源:V-JEPA: Latent Video Prediction for Visual Representation Learning,Figure 3。原图表达 context encoder 只处理未遮挡视频 token,predictor 结合 context output 和 mask tokens 去预测 target encoder 的 masked token representations。本站读法是看预测目标:V-JEPA 不是让模型画回像素,而是让模型在 latent 空间补全缺失时空结构,因此它更像表征预训练,不是完整动作世界模型。

Masked 目标的边界也在这里。它能学上下文和结构,但不保证自回归生成能力;能学视频表征,但如果没有 action、reward、done 或 closed-loop 反馈,就不能直接说明模型会规划。

Contrastive learning:正负样本定义了不变性

对比学习的核心是:把正样本拉近,把负样本推远。InfoNCE 常见写法是:

LInfoNCE=logexp(sim(q,k+)/τ)exp(sim(q,k+)/τ)+jexp(sim(q,kj)/τ)\mathcal{L}_{\text{InfoNCE}} =-\log \frac{\exp(\operatorname{sim}(q,k^+)/\tau)} {\exp(\operatorname{sim}(q,k^+)/\tau)+\sum_j\exp(\operatorname{sim}(q,k_j^-)/\tau)}

这里 qq 是 query 表示,k+k^+ 是正样本,kjk_j^- 是负样本,τ\tau 是 temperature。这个公式真正重要的不是分母长什么样,而是正负样本怎么定义。

在 SimCLR 里,同一张图的两种增强视图是正样本,所以表示会对 crop、color jitter、blur 等增强保持稳定。在 CLIP 里,图像和配套文本是正样本,所以模型学的是图文语义对齐,而不是像素重建或动作后果。

CLIP pre-training and zero-shot transfer

图源:Learning Transferable Visual Models From Natural Language Supervision,Figure 1。原图表达 CLIP 用大量 image-text pairs 做对比预训练,再把类别写成文本 prompts,通过图文 embedding 相似度完成 zero-shot prediction。本站读法是:CLIP 的表示适合语义检索和开放类别识别,但图文相似度高不等于会预测物体被推动后的状态。

对比学习的能力来自“哪些变化被视作同一个对象”。如果增强策略把小物体、文字、空间位置或接触点当成可忽略扰动,表示就可能在机器人、OCR、图表理解里丢掉关键细节。正样本和负样本不是采样小事,而是在写模型的不变性。

Reconstruction:重建细节,不等于保留任务状态

Reconstruction 目标让模型从压缩表示还原输入:

Lrec=d(gθ(hϕ(x)),x)\mathcal{L}_{\text{rec}}=d(g_\theta(h_\phi(x)),x)

Autoencoder、VAE、视觉 tokenizer、视频 VAE 都会用这类目标。它的优势是直观:如果表示能还原输入,说明它保留了大量信息。它的风险也直观:输入里有很多下游不需要的细节,模型可能把容量花在纹理、背景、压缩伪影和静态外观上。

对于生成模型,重建目标常常服务于“把高维像素压到可建模 latent”。Latent diffusion 的 VAE 就是先把图像压到 latent,再在 latent 上训练扩散模型。对于世界模型和 VLA,问题更尖锐:一个 latent 能重建画面,不代表它保留了接触力、可抓取性、风险、动作后果或可规划状态。

因此读 reconstruction 论文时要分清:它是在训练压缩器、视觉 tokenizer、生成 decoder,还是在训练 planner 可用的状态表示。重建好只是第一层证据。

Denoising:学分布方向,而不是一次性输出答案

扩散模型把干净样本逐步加噪,再训练模型从带噪状态恢复:

DDPM graphical model

图源:Denoising Diffusion Probabilistic Models,Figure 2。原图表达前向过程 q(xtxt1)q(x_t\mid x_{t-1}) 逐步加噪,反向过程 pθ(xt1xt)p_\theta(x_{t-1}\mid x_t) 逐步去噪。本站读法是:denoising 目标不是让模型一步输出最终样本,而是在不同噪声水平学习回到数据分布的方向。

常见训练目标是预测噪声、干净样本、velocity 或 score 的等价形式。它和 next-token 不同:next-token 每步选择离散 token,denoising 则在噪声层级上反复更新样本。这个目标很适合图像、视频、动作轨迹等多峰输出,因为它不必把多个合理结果平均成一个均值。

边界也清楚。训练好 denoising 不等于少步采样一定稳定;图像质量高不等于条件控制强;视频生成连贯不等于能闭环规划。采样器、guidance、distillation、条件编码和评测都会改变最终系统行为。

Behavior cloning:模仿专家,不等于会恢复

行为克隆把策略学习写成监督学习:

LBC=logπθ(atot,l)\mathcal{L}_{\text{BC}}=-\log \pi_\theta(a_t\mid o_{\le t},l)

oto_{\le t} 是历史观测,ll 是语言或任务条件,ata_t 是专家动作。连续动作也可以用 L1/MSE 或 action diffusion 目标;离散动作可以像 token 一样做 cross entropy。

BC 的优点是稳定、可扩展、能直接吃示范数据。RT-1、RT-2、Open X-Embodiment 和很多 VLA 都依赖这种思想:把机器人行为变成大规模监督学习问题。

但 BC 学的是“专家分布上的动作”。一旦部署时进入专家数据少见的状态,模型可能不知道怎么回来,这就是 covariate shift。它也不直接学习探索、长期 credit assignment、失败恢复或安全约束。要让 VLA 真正可用,通常还需要数据回流、闭环评测、risk head、世界模型、MPC、offline RL 或在线微调。

目标函数要和最终接口对齐

不同目标对应不同接口:

目标 最擅长提供什么 最容易漏掉什么
next-token 续写、代码、语言知识、序列统一接口 事实验证、工具执行、动作安全
masked modeling 上下文补全、局部到全局结构 自回归生成、因果动作后果
contrastive 检索、语义对齐、开放类别识别 细粒度几何、生成细节、动力学
reconstruction 压缩、tokenizer、decoder、保真细节 抽象任务状态、风险和可规划性
denoising 多峰生成、图像/视频/动作分布 少步稳定、条件忠实、闭环控制
behavior cloning 模仿专家动作、快速策略学习 分布外恢复、探索、长期规划

这张表不是让人选一个“最好目标”,而是提醒:目标函数是在定义模型最先学会的接口。现代系统常常把多个阶段串起来:next-token 打底,SFT 对齐指令,RAG 补外部事实,RL 或 verifier 改善任务收益;VLM 用 contrastive 或 captioning 对齐图文,再接 LLM;VLA 用 web-scale VLM 先学语义,再用机器人数据把语义接到动作。

读完以后怎么判断

预训练目标决定模型被奖励去保留什么信息。Next-token 奖励可续写性,masked modeling 奖励上下文补全,contrastive 奖励正样本不变性,reconstruction 奖励可还原性,denoising 奖励分布方向,behavior cloning 奖励专家动作匹配。

读论文时不要只问“loss 降了吗”,要问目标是否包含下游需要的变量。CLIP 学到图文语义,不等于学到动作后果;V-JEPA 学到视频 latent,不等于直接能闭环控制;BC 学到专家动作,不等于能从偏离状态恢复;扩散学到生成分布,不等于少步实时控制。把目标和接口对齐,才知道一个预训练方法该期待什么、不该期待什么。

外部精读

相关阅读与下一步

  • Title: 基础知识:预训练目标与表示学习:模型到底被要求学什么
  • Author: Charles
  • Created at : 2026-04-24 09:00:00
  • Updated at : 2026-04-24 09:00:00
  • Link: https://charles2530.github.io/2026/04/24/ai-files-foundations-pretraining-objectives-and-representation-learning/
  • License: This work is licensed under CC BY-NC-SA 4.0.
Comments