张量是深度学习里最基本的数据结构。模型看到的文本、图像、音频、动作轨迹,最终都会被组织成不同形状的张量,然后交给算子处理。 这页先回答“张量、Shape 与计算图”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;公式或术语卡住时回到术语表,不
-
基础知识:Prompt、CoT 与 RAG 入门
Prompt Engineering 经常被误解成“找一句神奇咒语”。更准确地说,它是在设计模型的 输入契约 :告诉模型任务是什么、可用信息是什么、输出应长什么样、哪些事情不能做,以及什么时候需要借助外部证据或工具。 这页先回答“Prompt、CoT 与 RAG 入门”在「基础知识」里的位置:它解决什么局部问题,依赖哪
-
基础知识:概率与潜变量模型
生成模型的目标不是记住训练样本,而是学习数据背后的分布,并从这个分布中采样出新样本。 这页先回答“概率与潜变量模型”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;公式或术语卡住时回到术语表,不需要一次吃完整个数学体系。 必要时先回 基础知识
-
基础知识:位置编码与 Mask:顺序和可见性
Attention 本身只计算 token 之间的相关性。它并不知道第一个 token 在前、第二个 token 在后,也不知道哪些 token 不应该被看见。位置编码和 mask 就是为了解决这两个问题。 这页先回答“位置编码与 Mask:顺序和可见性”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会
-
基础知识:论文专题前置知识地图
论文专题讲解覆盖的论文很多:高效训练、推理、扩散、VLA、世界模型、几何视觉和大模型技术报告都有。真正难的不是“论文太多”,而是它们默认读者已经掌握几套公共语言: 张量和注意力怎么流动,训练目标在约束什么,推理成本从哪里来,实验表到底证明了什么。 这页先回答“论文专题前置知识地图”在「基础知识」里的位置:它解决什么局部
-
基础知识:优化与训练入门
训练是把数据、模型、目标函数和优化器组织成一个闭环。模型不是一次性“学会”,而是在大量 batch 上反复计算 loss、回传梯度、更新参数。 这页先回答“优化与训练入门”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;公式或术语卡住时回到术
-
基础知识:数值、显存与运行时
模型能不能真正部署,不只取决于算法,还取决于数值格式、显存、带宽、kernel 和 runtime 是否匹配。 这页先回答“数值、显存与运行时”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;公式或术语卡住时回到术语表,不需要一次吃完整个数学
-
基础知识:Norm、残差与激活函数
深层网络能稳定训练,不只靠模型结构,还靠一组看似基础但非常关键的组件:归一化、残差连接和激活函数。 这页先回答“Norm、残差与激活函数”在「基础知识」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先看本页要补哪一个最小概念;公式或术语卡住时回到术语表,不需要一次吃完整个数学体系。
-
基础知识:多模态推理入门
现代模型越来越少是“只读文字、直接回答”的形态。真实系统里,用户可能上传图片、视频、语音、PDF、网页截图或工具返回;模型也可能先思考、调用工具、读结果、再继续回答。多模态和 CoT(Chain-of-Thought,思维链)看起来是两个话题,本质上都在回答同一个问题: 模型如何把复杂输入组织成可推理的中间状态,再把中
-
基础知识:MoE 与大模型架构表读法
读 DeepSeek、Qwen、Kimi、Gemini、Nemotron 这类技术报告时,最容易被一张模型规模表带偏: Total Params 、 Activated Params 、 Experts 、 Top-k 、 MLA/GQA 、 MTP 、 FP8/FP4 全部挤在一起。真正要读懂它,不是背模型名字,而是