训练：图片来源与授权

本页记录 files/assets/images/training/ 中图片的来源链接。
这些图片均来自 Wikimedia Commons，具体授权条款以各文件页面为准。

读法定位

这页先回答“训练图片来源与授权”在「训练」里的位置：它解决什么局部问题，依赖哪些前置，最后会影响哪类工程或研究判断。
前置：先知道 loss、optimizer、batch、checkpoint 和评测集的基本含义。必要时先回训练入口、基础知识或术语表。
主线关系：把目标函数、数据、分布式系统、评测回流和实验治理串起来，看一次训练为什么成功、为什么不稳、为什么贵。

训练专题曾经有一批概括图；现在不再在网页中使用。训练页里的方法图统一改为论文原图、论文项目图或明确来源的公共图。

文件清单

gradient-descent.svg
来源：https://commons.wikimedia.org/wiki/File:Gradient_descent.svg
neural-network.svg
来源：https://commons.wikimedia.org/wiki/File:Neural_network.svg
precision-recall.svg
来源：https://commons.wikimedia.org/wiki/File:Precisionrecall.svg
amdahls-law.svg
来源：https://commons.wikimedia.org/wiki/File:AmdahlsLaw.svg
boxplot-vs-pdf.svg
来源：https://commons.wikimedia.org/wiki/File:Boxplot_vs_PDF.svg
mapreduce.svg
来源：https://commons.wikimedia.org/wiki/File:MapReduce.svg
pid-loop.svg
来源：https://commons.wikimedia.org/wiki/File:PID_en.svg
normal-distribution.svg
来源：https://commons.wikimedia.org/wiki/File:Normal_distribution_pdf.svg
histogram-example.svg
来源：https://commons.wikimedia.org/wiki/File:Histogram_example.svg
pareto-chart.svg
来源：https://commons.wikimedia.org/wiki/File:Diagrama_pareto.svg
p-control-chart.svg
来源：https://commons.wikimedia.org/wiki/File:P_control_chart.svg
gantt-diagram.svg
来源：https://commons.wikimedia.org/wiki/File:Gantt_diagramm.svg
roc-curve.svg
来源：https://commons.wikimedia.org/wiki/File:Roc_curve.svg
variance-bias.svg
来源：https://commons.wikimedia.org/wiki/File:Variance-bias.svg
confusion-matrix.png
来源：https://commons.wikimedia.org/wiki/File:Confusion_Matrix.png

训练专题论文原图

这些图片位于 files/assets/images/paper-figures/training/，用于替换原先的概括图。

文件	来源	用途
`chinchilla-isoflop-curves.png`	Training Compute-Optimal Large Language Models，Figure 4	解释固定 FLOP 预算下参数量和 token 数的配平
`chinchilla-tokens-vs-params.png`	Training Compute-Optimal Large Language Models，Figure 15	解释 compute-optimal tokens / parameters scaling
`zero-memory-stages.png`	ZeRO: Memory Optimizations Toward Training Trillion Parameter Models，Figure 1	解释数据并行状态冗余和 ZeRO 三阶段分片
`gpipe-pipeline-parallelism.png`	GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism，Figure 2©	解释 micro-batch 如何填充 pipeline bubble
`instructgpt-rlhf-pipeline.png`	Training language models to follow instructions with human feedback，Figure 2	解释 SFT、reward model 和 PPO/RLHF 的训练数据接口
`instructgpt-labeler-likert.png`	Training language models to follow instructions with human feedback，Appendix Figure 19(a)	解释单条模型输出评分和元信息标注
`instructgpt-labeler-ranking.png`	Training language models to follow instructions with human feedback，Appendix Figure 19(b)	解释同题多答排序数据如何训练 reward model
`instructgpt-main-preference.png`	Training language models to follow instructions with human feedback，Figure 1	解释 RLHF 后训练需要看人类偏好胜率
`instructgpt-preference-facetted.png`	Training language models to follow instructions with human feedback，Figure 4	解释不同 prompt 分布和 labeler 分组下的偏好结果
`ppo-clipped-surrogate.png`	Proximal Policy Optimization Algorithms，Figure 1	解释 PPO clipped surrogate 如何限制策略概率变化

强化学习专题论文原图

这些图片位于 files/assets/images/paper-figures/reinforcement-learning/。

文件	来源	用途
`decision-transformer-architecture.png`	Decision Transformer: Reinforcement Learning via Sequence Modeling，Figure 1	解释 return-to-go、state、action 如何被组织成 GPT-style trajectory token
`decision-transformer-results-summary.png`	Decision Transformer，Figure 2	对比 Decision Transformer、TD Learning 和 Behavior Cloning 的总体表现
`decision-transformer-retcond-plots.png`	Decision Transformer，Figure 4	解释 return conditioning 与实际性能的关系

训练页还复用了一些其他专题的论文图：

文件	来源	用途
`../quantization/qlora-figure-1-memory.png`	QLoRA，Figure 1	解释低比特微调的显存构成
`../foundations/fp8-formats-figure-1-training-loss.png`	FP8 Formats for Deep Learning，Figure 1	解释 FP8 训练需要通过收敛曲线验证
`../foundations/sublinear-memory-figure-1-computation-graph.png`	Training Deep Nets with Sublinear Memory Cost，Figure 1	解释 activation checkpointing 的重计算换显存
`../foundations/data-cards-typology.png`	Data Cards，typology figure	解释数据治理和数据文档的多角色视角
`../foundations/loss-landscape-figure-resnet56.png`	Visualizing the Loss Landscape of Neural Nets	解释优化路径和稳定性排查
`../inference/specinfer-workflow.png`	SpecInfer，Figure 3	解释投机推理和 token tree verification

使用说明

如果你要对外发布（网站、课程、论文附录等），建议在页面底部继续保留来源链接；
若替换图片，请同时更新本页中的文件名与来源；
若需严格法务审阅，请逐个打开来源页确认当前 license 字段。

图片使用审计流程

flowchart TD
    A["新增图片"] --> B{"来源类型"}
    B --> C["论文 / 官方项目"]
    B --> D["Wikimedia / 公共图"]
    B --> E["截图 / 自绘图"]
    C --> F["记录论文、Figure 编号、链接"]
    D --> G["记录文件页、license、作者"]
    E --> H["记录截图页面或生成脚本"]
    F --> I["写入页面图注"]
    G --> I
    H --> I
    I --> J["同步更新本来源页"]
    J --> K["构建检查"]

这页虽然是来源清单，但它在站点质量里很重要。图文并茂不是随便插图，而是让每张图都能回溯来源、用途和解释。尤其是训练、量化、算子、VLA 这类技术页，图如果没有图源和图解，读者很难判断它是论文证据、概念示意，还是作者重绘。

字段	示例
图源	`Training Compute-Optimal Large Language Models`
Figure	`Figure 4`
原图意	固定 FLOP 预算下参数量和 token 数的配平
本页用途	解释 scaling law 中 compute/data/model size 的权衡
边界	该图说明趋势，不等于所有训练任务的精确配方

替换图片时的检查项

检查项	为什么重要
文件名是否稳定	避免页面链接失效
图源是否仍可访问	方便后续复查
license 是否允许当前用途	避免发布风险
页面图注是否同步	避免旧解释套新图
是否有更权威来源	优先论文、官方文档或公共授权图

如果未来改用自绘 SVG 或脚本生成图，也建议把生成脚本或数据来源记录在这里。这样图不仅能看，也能维护。

下一站

回到本专题入口：训练，确认这页在整条路线中的位置。
按导航顺序继续：预训练、微调与对齐。
概念或符号卡住时，先查术语表，再回到当前页。

Charles's Castle

训练：图片来源与授权

文件清单

训练专题论文原图

强化学习专题论文原图

使用说明

图片使用审计流程

推荐图注格式

替换图片时的检查项