扩散模型：扩散训练配方与排障

扩散模型的论文叙事常聚焦于参数化、采样器和新架构，但真正把模型训稳，往往依赖一整套细碎却关键的工程配方：数据如何清洗、分辨率怎么安排、噪声日程怎么采、条件 dropout 何时打开、EMA 多大、classifier-free guidance 相关条件该如何混入、loss weighting 用哪一版、验证集看什么，以及一旦生成崩坏该如何定位。对实际训练者而言，失效分析的重要性并不低于新方法本身。

初学者先抓住

扩散训练的公式看起来短，但配方很长。数据、噪声时间采样、条件 dropout、EMA、分辨率 curriculum、batch 和验证集都会改变最终观感；训练崩坏时不要只怀疑网络结构。

有趣例子：烘焙扩散模型

同样是面粉、鸡蛋和糖，温度、搅拌顺序和烘烤时间不同，蛋糕会完全不同。扩散训练也是这样：很多关键差异藏在论文表格和附录里，而不是主公式里。

1. 扩散训练不是“把数据喂进去就行”

训练目标表面很简单：

$\mathcal{L} = \mathbb{E}_{x_0,\epsilon,t} \left[ w(t)\|\epsilon-\epsilon_\theta(x_t,t,c)\|_2^2 \right].$

但这个式子里每一项都藏着配方选择： $x_0$ 来自什么样的数据分布， $t$ 的采样分布是什么， $w(t)$ 是否重加权，条件 $c$ 如何注入、何时 dropout， $\epsilon_\theta$ 用什么架构和参数化，以及优化器与 EMA 如何设置。

这使得扩散训练像烘焙一样：原料大体相同，但温度、顺序和时间稍有变化，成品就可能完全不同。

2. 数据质量先于模型技巧

扩散模型对数据脏噪特别敏感。图像里常见问题包括低分辨率、强压缩、重复样本、模板化素材、标题-图像不一致、水印、拼图、广告图和内容分布偏斜。若是文档、UI、工业图像或机器人视觉数据，还会多出 OCR 标注错误、版面区域丢失、相机标定变化、任务条件与动作轨迹对不齐等问题。

很多训练崩坏看似是架构问题，实则是数据质量首先失守。

3. 分辨率 curriculum

高分辨率训练昂贵且不稳，很多系统采用分阶段策略：先在较低分辨率上学语义与大构图，再提升到更高分辨率补纹理与细节，必要时用级联或 latent decoder 细化。

这种 curriculum 让模型先学会“画什么”，再学会“画得细”。如果一开始就用极高分辨率和小 batch，往往算力花得很快，但收敛不一定好。

4. 噪声日程与时间采样

即使固定了 beta schedule，不同时间步采样分布也会改变训练重点。直觉上，靠近高噪区的样本更强调全局语义与粗结构，低噪区更强调细节修复。若训练中过度采某一段时间，模型能力会失衡。

很多系统会使用 importance sampling 或 log-SNR 相关重权，使不同噪声区的梯度贡献更均衡。若记信噪比为

$\mathrm{SNR}(t)=\frac{\alpha_t^2}{\sigma_t^2},$

则加权常围绕 $\mathrm{SNR}(t)$ 的函数设计。

5. 条件 dropout 与 CFG 兼容性

文本到图像里，classifier-free guidance 常需在训练时随机丢弃条件，让模型同时学条件和无条件分支。若 dropout 概率记为 $p_{\text{drop}}$ ，则训练数据中一部分样本使用空条件 $\varnothing$ ：

$c'= \begin{cases} \varnothing, & \text{with prob. } p_{\text{drop}}\\ c, & \text{otherwise} \end{cases}$

$p_{\text{drop}}$ 太低，推理时 CFG 不稳定；太高，则条件对齐能力下降。这个比例是最典型的“论文里一句带过、训练里很影响结果”的配方项。

6. EMA 为何常常决定最终观感

扩散训练常用 exponential moving average 保存一份平滑权重：

$\theta_{\text{ema}} \leftarrow m\theta_{\text{ema}} + (1-m)\theta.$

EMA 模型通常比最后一步权重更稳，特别在后期损失抖动时。很多视觉生成系统最终部署的并不是“当前训练权重”，而是 EMA 权重。若 EMA 衰减设得不合适，模型可能看起来一直在进步，但采样质量忽上忽下。

7. 优化器与 batch 设计

AdamW + 混合精度是常见组合。关键不只在于学习率，还在于全局 batch 是否足够大、梯度累积是否引入统计偏差、gradient clipping 是否必要，以及是否存在异常 batch 导致 loss spike。

扩散训练尤其容易在数据混杂、分辨率变化大、caption 质量参差时出现不稳定 batch。

8. 验证集不要只看 FID

FID 重要，但不够。实际训练中还应观察 prompt fidelity、构图稳定性、细节完整性、人脸/手部/文字等敏感区域质量、长尾类别表现、多样性与模式坍缩迹象。

若是文档或控制类扩散，更要看结构与任务一致性，而非只看视觉美感。

9. 常见失效模式一：生成很糊

可能原因包括低噪区训练不足、分辨率提升过快、decoder 或 latent 压缩过强、学习率太高导致细节不稳定，以及数据本身低质占比过高。

一个实用排查方法是固定 prompt，分别看不同采样步数和不同噪声区起点生成结果，判断问题更像“全程没学会”还是“后段细化不足”。

10. 常见失效模式二：构图混乱或主体丢失

这常与高噪区建模和文本条件对齐相关。若模型对全局语义理解不稳，即使细节不错，也会出现“画得精致但画错了主角”的情况。原因可能是 caption 过短或噪声大、条件注入能力弱、噪声日程采样偏低噪，或 guidance 设置与训练不匹配。

11. 常见失效模式三：文字、手部、局部结构错误

这是视觉生成中的顽固难题。原因往往不是“模型总体不会画”，而是数据中此类结构稀少、像素级细节要求高、局部一致性难以靠全局语义自动保证。

针对这些问题，通常需要更专门的数据、局部控制条件或后处理模块，而不只是延长训练。

12. 常见失效模式四：prompt adherence 差

用户写“红色雨衣”，生成却经常变成黄色；写“两只猫”，结果总出一只。这说明条件信号没被充分绑定到生成过程。排查时要看文本编码器是否足够强、条件 dropout 是否过高、训练 caption 是否过于模板化，以及 CFG 推理范围是否超出训练支撑。

13. 常见失效模式五：模式坍缩或风格单一

虽然扩散比 GAN 更不易塌缩，但若数据分布狭窄、训练过度聚焦主模态，生成仍可能显得“都一个味”。这常发生在垂直领域数据集，如特定商品图、固定 UI 或单一艺术风格集上。

14. 例子：文档版面扩散

如果训练的是文档页面生成或版面增强模型，最常见的失效不是“图片不好看”，而是字段位置错乱、表格线条断裂、小字体不可读和 OCR 语义不一致。

此时训练配方应优先保证结构保真，而不是视觉风格多样性。

15. 例子：机器人动作扩散

如果扩散用于动作轨迹生成，失效模式会变成轨迹平滑但不可执行、长时动作后段漂移、条件目标被部分满足但最终失败，以及多样性很好但稳定性差。

因此验证集要看成功率、碰撞率和恢复能力，而不是只看轨迹相似度。

16. 设计建议

先把数据质量和条件对齐搞清，再谈 fancy sampler。训练监控至少同时看 loss、样例、prompt adherence 和长尾错误；EMA、条件 dropout、时间采样分布必须显式记录；失效分析应按“全局语义 / 局部细节 / 条件绑定 / 结构一致性”分桶。不同任务的“好生成”定义不同，验证指标要贴近任务，而不是照搬图像生成标准。

17. 小结

扩散模型的训练成功，很少来自某个单一魔法技巧，而更常来自一套彼此匹配的配方：干净数据、合适噪声采样、稳定优化、正确条件注入、持续样例检查和有条理的失效分析。把这些工作做扎实，往往比再追一篇新方法更能决定最终质量。

工程收束

扩散训练配方不是技巧清单，而是目标、数据制度、噪声采样、EMA、条件注入、验证集和部署约束的共同设计。更稳的验收应同时看基础生成、控制、系统和任务四层；落地时先做目标和数据判断，再定推理预算，再看控制接口，最后才决定是否引入更激进的新方法。

Charles's Castle

扩散模型：扩散训练配方与排障

1. 扩散训练不是“把数据喂进去就行”

2. 数据质量先于模型技巧

3. 分辨率 curriculum

4. 噪声日程与时间采样

5. 条件 dropout 与 CFG 兼容性

6. EMA 为何常常决定最终观感

7. 优化器与 batch 设计

8. 验证集不要只看 FID

9. 常见失效模式一：生成很糊

10. 常见失效模式二：构图混乱或主体丢失

11. 常见失效模式三：文字、手部、局部结构错误

12. 常见失效模式四：prompt adherence 差

13. 常见失效模式五：模式坍缩或风格单一

14. 例子：文档版面扩散

15. 例子：机器人动作扩散

16. 设计建议

17. 小结

工程收束