训练：图片来源与授权

本页记录 files/assets/images/training/ 中图片的来源链接。
这些图片均来自 Wikimedia Commons，具体授权条款以各文件页面为准。

训练专题曾经有一批概括图；现在不再在网页中使用。训练页里的方法图统一改为论文原图、论文项目图或明确来源的公共图。

文件清单

gradient-descent.svg
来源：https://commons.wikimedia.org/wiki/File:Gradient_descent.svg
neural-network.svg
来源：https://commons.wikimedia.org/wiki/File:Neural_network.svg
precision-recall.svg
来源：https://commons.wikimedia.org/wiki/File:Precisionrecall.svg
amdahls-law.svg
来源：https://commons.wikimedia.org/wiki/File:AmdahlsLaw.svg
boxplot-vs-pdf.svg
来源：https://commons.wikimedia.org/wiki/File:Boxplot_vs_PDF.svg
mapreduce.svg
来源：https://commons.wikimedia.org/wiki/File:MapReduce.svg
pid-loop.svg
来源：https://commons.wikimedia.org/wiki/File:PID_en.svg
normal-distribution.svg
来源：https://commons.wikimedia.org/wiki/File:Normal_distribution_pdf.svg
histogram-example.svg
来源：https://commons.wikimedia.org/wiki/File:Histogram_example.svg
pareto-chart.svg
来源：https://commons.wikimedia.org/wiki/File:Diagrama_pareto.svg
p-control-chart.svg
来源：https://commons.wikimedia.org/wiki/File:P_control_chart.svg
gantt-diagram.svg
来源：https://commons.wikimedia.org/wiki/File:Gantt_diagramm.svg
roc-curve.svg
来源：https://commons.wikimedia.org/wiki/File:Roc_curve.svg
variance-bias.svg
来源：https://commons.wikimedia.org/wiki/File:Variance-bias.svg
confusion-matrix.png
来源：https://commons.wikimedia.org/wiki/File:Confusion_Matrix.png

训练专题论文原图

这些图片位于 files/assets/images/paper-figures/training/，用于替换原先的概括图。

文件	来源	用途
`chinchilla-isoflop-curves.png`	Training Compute-Optimal Large Language Models，Figure 4	解释固定 FLOP 预算下参数量和 token 数的配平
`chinchilla-tokens-vs-params.png`	Training Compute-Optimal Large Language Models，Figure 15	解释 compute-optimal tokens / parameters scaling
`zero-memory-stages.png`	ZeRO: Memory Optimizations Toward Training Trillion Parameter Models，Figure 1	解释数据并行状态冗余和 ZeRO 三阶段分片
`gpipe-pipeline-parallelism.png`	GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism，Figure 2©	解释 micro-batch 如何填充 pipeline bubble
`instructgpt-rlhf-pipeline.png`	Training language models to follow instructions with human feedback，Figure 2	解释 SFT、reward model 和 PPO/RLHF 的训练数据接口
`instructgpt-labeler-likert.png`	Training language models to follow instructions with human feedback，Appendix Figure 19(a)	解释单条模型输出评分和元信息标注
`instructgpt-labeler-ranking.png`	Training language models to follow instructions with human feedback，Appendix Figure 19(b)	解释同题多答排序数据如何训练 reward model
`instructgpt-main-preference.png`	Training language models to follow instructions with human feedback，Figure 1	解释 RLHF 后训练需要看人类偏好胜率
`instructgpt-preference-facetted.png`	Training language models to follow instructions with human feedback，Figure 4	解释不同 prompt 分布和 labeler 分组下的偏好结果
`ppo-clipped-surrogate.png`	Proximal Policy Optimization Algorithms，Figure 1	解释 PPO clipped surrogate 如何限制策略概率变化

强化学习专题论文原图

这些图片位于 files/assets/images/paper-figures/reinforcement-learning/。

文件	来源	用途
`decision-transformer-architecture.png`	Decision Transformer: Reinforcement Learning via Sequence Modeling，Figure 1	解释 return-to-go、state、action 如何被组织成 GPT-style trajectory token
`decision-transformer-results-summary.png`	Decision Transformer，Figure 2	对比 Decision Transformer、TD Learning 和 Behavior Cloning 的总体表现
`decision-transformer-retcond-plots.png`	Decision Transformer，Figure 4	解释 return conditioning 与实际性能的关系

训练页还复用了一些其他专题的论文图：

文件	来源	用途
`../quantization/qlora-figure-1-memory.png`	QLoRA，Figure 1	解释低比特微调的显存构成
`../foundations/fp8-formats-figure-1-training-loss.png`	FP8 Formats for Deep Learning，Figure 1	解释 FP8 训练需要通过收敛曲线验证
`../foundations/sublinear-memory-figure-1-computation-graph.png`	Training Deep Nets with Sublinear Memory Cost，Figure 1	解释 activation checkpointing 的重计算换显存
`../foundations/data-cards-typology.png`	Data Cards，typology figure	解释数据治理和数据文档的多角色视角
`../foundations/loss-landscape-figure-resnet56.png`	Visualizing the Loss Landscape of Neural Nets	解释优化路径和稳定性排查
`../inference/specinfer-workflow.png`	SpecInfer，Figure 3	解释投机推理和 token tree verification

使用说明

如果你要对外发布（网站、课程、论文附录等），建议在页面底部继续保留来源链接；
若替换图片，请同时更新本页中的文件名与来源；
若需严格法务审阅，请逐个打开来源页确认当前 license 字段。

Charles's Castle

训练：图片来源与授权

文件清单

训练专题论文原图

强化学习专题论文原图

使用说明