模型蒸馏(Knowledge Distillation, KD)解决的是一个很实际的问题:已经有一个强但贵的 teacher model,能不能把它的行为、分布或中间表示压到更小、更快、更便宜的 student model 里。 1. 蒸馏解决什么 蒸馏的常见目标可以分成三类: 目标 想换回什么 常见 student
-
图片资产治理台账
这页记录全站图片资产中“已经本地化但需要维护来源”与“当前未被正式页面引用”的资产。它不是删除清单;默认策略是保留可追溯资产,只把本轮明确替换产生的重复文件作为未来人工清理候选。 当前资产治理基线 项目 当前口径 处理原则 — --- — 远程图片 正式页面应尽量为 0 论文图和公共图都优先本地化;图注保留可回
-
图片与公式质量标准
这页记录全站维护论文图和数学公式时的最低标准。目标不是把页面做得更花,而是让读者不用猜:图从哪里来、该怎么看、公式里每个位置是什么意思。 逐页审核口径 每一页都同时服务两类读者:初学者需要知道“这页在解决什么问题、前置是什么、公式怎么读”;工程师需要知道“这套方法怎样落到系统、指标、成本、边界和验收门禁”。补内容时优先
-
基础知识:读懂公式的最小数学:接口、概率、loss 和梯度
这篇文章只回答一个问题:AI 文章里的公式到底应该怎么读,才不会停在“符号我都见过,但不知道它在说什么”。 公式不是为了显得高级。好的公式通常在声明四件事:输入是什么,输出是什么,哪些变量可见,训练或推理在优化什么。读不懂公式时,最容易犯的错是急着背符号表;更好的办法是把它还原成模型接口和数据流。 先把公式读成接口 T
-
训练:模型训练从零入门:把数据、目标和更新压力对齐
训练不是“把数据喂给模型,然后等 loss 下降”。更准确地说,训练是在控制三件事:模型看见什么数据,用什么目标判断对错,用多大的更新压力修改参数。只要这三件事没有对齐,loss 曲线再顺,也可能只是模型学会了错误捷径。 可以先把训练看成一条生产线: 这条线里每一环都会改变模型最终学到什么。数据决定“世界长什么样”,l
-
量化:图解阅读顺序:看清误差从哪里来
量化图常会同时画权重分布、激活离群值、分组尺度、kernel 路径和部署收益。读图前先确认它在解释哪件事:数值误差、校准策略、训练适配、运行时支持,还是端到端服务成本。这个页面保留“按图找文章”的入口,但不再把图当成目录装饰。 本站没有为这个入口生成新图片,也不会用 image2 补图。涉及论文图时,优先使用原论文、官
-
量化:最小数学:格子、误差和输出保持
量化公式不应该被当成符号表背诵。它们大多在回答三件事: 读公式时先问:这个符号是权重、激活还是 KV cache;scale 是一整层共用还是每组共用;误差是在单个数上看,还是在矩阵乘输出上看。Hugging Face 的量化概念文档把量化拆成 scheme、granularity、technique,这个拆法很好:s
-
世界模型:从零理解世界模型:预测行动后的可用未来
世界模型不是“能生成未来视频”的模型。它真正回答的问题是: 如果智能体在当前局面下执行某个动作,未来会怎样,风险在哪里,下一步还值不值得做。 这句话里有三个关键词。第一是当前局面,它通常不是单帧图像,而是历史观测、动作和记忆压成的状态。第二是动作,因为世界模型必须支持反事实:同一个起点,向左走、向右走、打开抽屉、停下来
-
VLM/VLA:最小数学:理解、行动与预测后果
VLM/VLA 里的公式不应该被当成符号表背诵。它们大多在回答三件事: 读公式时先问四个问题:输入是什么,输出是什么,时间下标 表示哪一刻,模型是在回答“理解”“行动”还是“预测后果”。只要这四件事清楚,公式就不再是装饰。 三类最常见公式 VLM:看图回答问题 $$ p theta y mid x v, x t
-
证据判断原则
这页说明本站如何判断一项技术是否真的服务 世界模型高效训练 。它不替代 全站证据与复现状态标准、Claim Ledger 或 全站效率技术覆盖矩阵,而是把这些页面背后的判断口径写成更短的原则。 五条原则 原则 写作时必须回答 常见误区 — --- — 高效是成本向量,不是形容词 省的是数据、token、显存、通