基础知识：预训练目标与表示学习

预训练目标回答的是：在没有最终任务标签或只有弱标签时，模型到底被要求学什么。理解这些目标，读 LLM、VLM、扩散、世界模型和 VLA 时就不会把所有 loss 都混成“让模型变好”。

读法定位

这页先回答“预训练目标与表示学习”在「基础知识」里的位置：它解决什么局部问题，依赖哪些前置，最后会影响哪类工程或研究判断。
前置：先知道 token、latent、loss 和 probability 的基本读法。必要时先回概率与潜变量模型、优化与训练入门或术语表。
主线关系：把 next-token、masked modeling、contrastive learning、reconstruction、denoising/score matching 和 behavior cloning 放到同一张目标函数地图里。

图源：Learning Transferable Visual Models From Natural Language Supervision，Figure 1。原论文图意：CLIP 先用大量 image-text pairs 做对比预训练，再把文本类别转成 prompts，通过图文 embedding 相似度完成 zero-shot prediction。

图解：对比学习学的是表示空间

CLIP 图里最重要的是 image encoder 和 text encoder 输出到同一个 embedding 空间。训练目标不是让模型生成图片，也不是让模型输出机器人动作，而是让匹配图文靠近、不匹配图文远离。这样的表示适合检索、分类和 VLM 初始化，但它本身不包含动作后果、reward 或闭环安全。

初学者先抓住

预训练目标规定了“什么算预测对”。Next-token 让模型学序列延续，masked modeling 让模型补上下文缺口，对比学习让匹配样本靠近，重建让信息能被还原，去噪让模型学数据分布方向，行为克隆让策略模仿专家动作。

遇到这些症状，回看本页

读论文时看到 MLE、InfoNCE、masked prediction、denoising、score matching、behavior cloning 却不知道它们差在哪，或者模型在预训练指标上很好但下游决策不稳，回看本页。目标函数会告诉你模型被训练成了什么，也会暴露它没有被训练什么。

一张目标函数地图

目标	输入	预测什么	常见用途	不直接保证
Next-token prediction	前缀 token	下一个 token	LLM、多模态 token 模型	事实正确、动作安全
Masked modeling	被遮挡的输入	mask 处 token 或 latent	BERT、MAE、V-JEPA	自回归生成能力
Contrastive learning	正负样本对	匹配关系 / embedding 相似度	CLIP、检索、对齐	生成细节或因果动态
Reconstruction	压缩表示	原始输入或局部内容	Autoencoder、VAE、视觉 tokenizer	表示一定可规划
Denoising / score	带噪样本	噪声、score 或干净样本	扩散、score models	少步生成或实时控制
Behavior cloning	观测和任务	专家动作	VLA、机器人策略	失败恢复和探索

目标函数不是越多越好。关键是它是否和最终使用接口一致：要生成文本，就需要生成目标；要做检索，就需要表示对齐；要做决策，就需要动作、reward、风险或闭环反馈。

Next-token prediction

自回归语言模型最经典的目标是：

$\mathcal{L}_{\text{NTP}}=-\sum_t \log p_\theta(x_t\mid x_{<t})$

它让模型在给定历史前缀时预测下一个 token。这个目标简单、可扩展、能吃海量文本，也能把图像 token、视频 token 或动作 token 统一成序列建模。

但 next-token 只告诉模型“在数据里下一个 token 常是什么”。它不自动知道回答是否真实、动作是否安全、工具调用是否真的成功。后训练、RAG、verifier、RL 和评测系统都是在补这些接口。

Masked modeling 和 latent prediction

Masked modeling 把输入的一部分遮住，让模型从上下文预测缺失部分：

$\mathcal{L}_{\text{mask}}=\sum_{i\in M}\ell(\hat{x}_i, x_i)$

如果预测的是像素或 token，模型会更重视可重建细节；如果预测的是 target encoder 的 latent，模型更可能学抽象结构。

图源：V-JEPA: Latent Video Prediction for Visual Representation Learning，Figure 3。原论文图意：context encoder 只处理 masked video 中可见 token，predictor 结合 context output 和 mask tokens 去预测 target encoder 对完整视频产生的 masked token representations。

图解：V-JEPA 预测 latent，不是复原像素

图中 context encoder 只看未遮挡视频块，predictor 去预测 target encoder 给出的被遮挡区域表示。这个目标减少了逐像素重建的冗余，更关注运动和语义结构。它能支撑视频表示学习，但原始 V-JEPA 不直接包含 action、reward、done 或 closed-loop policy。

Contrastive learning

对比学习把正样本拉近，把负样本推远。InfoNCE 常见写法是：

$\mathcal{L}_{\text{InfoNCE}} =-\log \frac{\exp(\operatorname{sim}(q,k^+)/\tau)} {\exp(\operatorname{sim}(q,k^+)/\tau)+\sum_j \exp(\operatorname{sim}(q,k_j^-)/\tau)}$

这里 $q$ 是 query 表示， $k^+$ 是匹配的正样本， $k_j^-$ 是负样本， $\tau$ 是 temperature。这个目标让 embedding 空间具备检索和对齐能力，但它的质量依赖负样本、数据覆盖和语义粒度。

Reconstruction、denoising 和 score

Reconstruction 让模型从压缩表示还原输入：

$\mathcal{L}_{\text{rec}}=d(\hat{x},x)$

它适合训练 autoencoder、VAE、视觉 tokenizer 或视频压缩模块。风险是模型可能保留了重建细节，却没有保留决策相关状态。

Denoising / score matching 则把生成建模改写成“从噪声恢复数据”：

图源：Denoising Diffusion Probabilistic Models，Figure 2。原论文图意：前向过程 $q(x_t\mid x_{t-1})$ 逐步加噪，反向生成过程 $p_\theta(x_{t-1}\mid x_t)$ 逐步去噪，从噪声链条恢复数据样本。

图解：去噪目标学的是分布方向

DDPM 图里的 $q$ 负责把真实数据逐步加噪， $p_\theta$ 负责学习反向去噪。训练时常让模型预测噪声、velocity 或 score；采样时则沿着学到的方向从噪声走回数据。这和 next-token 不同：它不是一次选下一个 token，而是在连续或离散噪声层级中反复更新样本。

Behavior cloning

行为克隆把策略学习写成监督学习：给定观测和任务，让模型模仿专家动作。

$\mathcal{L}_{\text{BC}}=-\log \pi_\theta(a_t\mid o_{\le t}, l)$

这里 $o_{\le t}$ 是历史观测， $l$ 是语言或任务条件， $a_t$ 是专家动作。连续动作也常用 MSE/L1 或 action diffusion 目标。

BC 的优点是稳定、简单、能利用示范数据；缺点是它主要学数据里出现过的动作。部署时一旦偏离专家轨迹，模型可能不知道怎么恢复。这也是为什么 VLA 和世界模型后面会接数据引擎、闭环评测、offline RL、PPO/GRPO 或 MPC。

怎么判断目标和任务是否匹配

最终目标	预训练目标是否够用	还需要什么
写作、问答、代码	next-token 是核心底座	RAG、SFT、RL、verifier
图文检索	contrastive 很合适	hard negative、领域数据
图像/视频生成	denoising 或 autoregressive token	采样器、条件控制、评测
世界模型	latent prediction / dynamics	action、reward、risk、rollout eval
VLA 控制	BC 是基础入口	失败恢复、闭环、动作安全层

常见误区：预训练指标好就等于下游可用

预训练目标只覆盖它定义过的信号。CLIP 相似度高不代表能控制机器人；V-JEPA 表征好不代表能预测动作后果；BC loss 低不代表偏离轨迹后会恢复；扩散 FID 好也不代表条件执行和安全边界都可靠。

和后续专题的关系

优化与训练入门：loss、gradient 和训练循环的共同机制。
概率与潜变量模型：生成分布、latent 和采样的基础。
VLM 架构与训练：CLIP、BLIP-2、V-JEPA 等目标如何进入 VLM。
扩散模型路线图：denoising 和 score matching 的完整展开。
VLA 数据与策略学习：behavior cloning、动作 token 和策略学习。

本页结论

预训练目标决定模型最先学会的接口：续写、补全、对齐、重建、去噪或模仿动作。读论文时先问“它的 loss 让模型预测什么”，再问“这个预测目标是否足够支撑最终任务”。

下一站

回到本专题入口：基础知识，确认这页在整条路线中的位置。
按导航顺序继续：优化与训练入门。
概念或符号卡住时，先查术语表，再回到当前页。