扩散模型:发展脉络
这页把扩散模型的发展放在一条连续主线上看:DDPM 解决如何稳定训练高质量生成模型,DDIM / ODE solver 解决如何更快采样,Consistency / LCM / DMD / Rectified Flow 继续追问能否把几十步甚至几百步压到几步或一步。
扩散模型发展的主线不是“论文名字越来越多”,而是同一个问题被不断追问:怎样从噪声生成数据,并且生成得更快、更稳、更可控。先把“训练稳定”和“采样加速”分开,后面的路线就不容易混。
DDPM 像一位修图师每次只擦掉一点雾,虽然慢但稳;DDIM 和 ODE solver 像找到更聪明的擦拭路线;DMD、Consistency 和 Rectified Flow 则像训练一位新修图师,让他几下就能完成原来几十下的效果。
统一记号
本文统一使用:
在 DDPM 文献中常见等价写法是:
可以理解为真实信号 和噪声 的按时刻混合。扩散模型学习的是如何从噪声状态一步步回到数据分布。
一条主线
扩散模型的发展主要围绕三件事:
- 把生成过程写成更容易训练的逐步去噪问题;
- 把逐步去噪解释成 SDE/ODE 数值求解,引入 Euler、Heun、DPM-Solver;
- 用蒸馏、分布匹配、整流流把多步采样压缩成少步甚至一步。
一个简化路线是:
1 | DDPM |
这条时间线更像一组不同代价分配方式,而不是“后来的名字自动淘汰前面的名字”。DDIM 主要改采样路径,DPM-Solver 主要改数值求解,Consistency / LCM 更依赖新的训练或蒸馏目标,DMD 关注生成分布对齐。读论文时先问“它动的是训练、采样、蒸馏还是分布匹配”,比先记年份更有用。
时间线
| 时间 | 方法 | 解决的问题 | 代表意义 |
|---|---|---|---|
| 2020 | DDPM | 训练稳定、生成质量高但采样慢 | 扩散模型主流化起点 |
| 2020 | DDIM | 不重训减少采样步数 | 从马尔可夫链走向确定性路径 |
| 2020 | Score SDE / Probability Flow ODE | 连续时间统一视角 | 采样变成微分方程求解 |
| 2022 | EDM | 系统整理噪声参数化和采样设计 | 工程采样器设计成熟 |
| 2022 | DPM-Solver / DPM-Solver++ | 高阶 diffusion ODE 求解 | 10 到 20 步高质量采样 |
| 2023 | Consistency / LCM | 学习一步或少步一致映射 | 少步生成进入实用区间 |
| 2023 | DMD | 分布匹配式一步蒸馏 | 从轨迹模仿转向分布对齐 |
| 2024 | DMD2 / Rectified Diffusion | 改善一步生成质量和稳定性 | 少步/一步生成继续逼近教师 |
| 2025 | Phased DMD | 分阶段分布匹配 | 在复杂任务中兼顾质量和多样性 |
DDPM 到 DDIM
DDPM 的核心是正向逐步加噪,反向学习逐步去噪。训练时通常预测噪声、 或 velocity,把难的生成建模转成监督学习式的去噪问题。
它的价值是训练稳定、质量高、与 score matching 和变分推断建立联系;代价是采样常需几百到上千步,部署时延迟很高。
DDIM 的关键贡献是改变采样路径,而不是重训模型。它证明可以在兼容 DDPM 训练框架下构造非马尔可夫反向过程,并在特定设置下近似确定性采样。这让扩散采样从“逐步反马尔可夫链”走向“沿连续轨迹做离散积分”。
ODE Solver 时代
Score SDE 和 probability flow ODE 把扩散模型放进连续时间框架。采样可以被理解为逆时间 SDE 或确定性 ODE 的数值求解。
这带来一个直接工程收益:同一个训练好的模型,换更好的求解器就能更快出图。
| 求解器 | 特点 |
|---|---|
| Euler | 一阶、简单、每步便宜,低步数误差较大 |
| Heun | 二阶 predictor-corrector,更稳但每步更贵 |
| DPM-Solver | 针对 diffusion ODE 设计的高阶求解器 |
| DPM-Solver++ | 改善 classifier-free guidance 下的稳定性 |
| EDM sampler | 系统整理噪声参数化和采样细节 |
这一阶段的核心不是改变模型训练,而是把采样当作数值分析问题。
蒸馏与一致性
少步采样进一步依赖蒸馏和一致性学习。Progressive Distillation 把多步模型逐级压缩成更少步;Consistency Models 和 LCM 直接学习不同噪声水平之间的一致映射,让模型能在很少步内到达数据分布。
这类方法的核心取舍是:
- 步数更少,速度更快;
- 训练目标更复杂;
- 可能损失多样性或细节;
- 对 teacher、数据和噪声日程更敏感。
少步模型的验收不能只看单张视觉效果,还要看多样性、文本对齐、结构稳定和不同 guidance 强度下的表现。
DMD 与分布匹配
DMD(Distribution Matching Distillation)代表了一条从轨迹模仿转向分布对齐的路线。它不只要求 student 逐步模仿 teacher 的去噪轨迹,而是更直接地让 student 生成分布对齐 teacher / data 分布。
DMD2 继续改善一步蒸馏中的模糊、训练不稳和细节不足;Phased DMD 则把分布匹配分阶段进行,试图在复杂生成任务中兼顾结构、细节和多样性。
这条路线的吸引力很明确:如果能用一步或极少步达到多步扩散质量,推理成本会大幅下降。但它也更容易暴露 teacher bias、模式坍缩和分布覆盖不足。
Rectified Flow 与收口判断
Rectified Flow / Rectified Diffusion 试图学习更直的生成路径,把噪声到数据的传输路径整流,从而减少采样步数。它和 DMD、consistency、LCM 都指向同一个工程目标:少步甚至一步生成。
理解扩散演化时,不必把每个方法割裂成独立名词。更实用的判断是:
- 它改变训练目标,还是只改变采样器;
- 它减少步数的代价是什么;
- 它是否保持多样性、结构和条件对齐;
- 它是否在真实分辨率、真实 prompt 和真实延迟预算下成立。
扩散模型的发展主线,就是在质量、步数、稳定性和多样性之间不断重新分配代价。
- Title: 扩散模型:发展脉络
- Author: Charles
- Created at : 2025-05-08 09:00:00
- Updated at : 2025-05-08 09:00:00
- Link: https://charles2530.github.io/2025/05/08/ai-files-diffusion-evolution/
- License: This work is licensed under CC BY-NC-SA 4.0.