基础知识
2026
7
2025
15
- 基础知识:Transformer、Tokenization 与注意力
- 基础知识:张量、Shape 与计算图:为什么很多模型问题先是接口问题
- 基础知识:Prompt、CoT 与 RAG:把模型输入做成可验证的信息流
- 基础知识:概率与潜变量模型:生成模型到底在学什么
- 基础知识:位置编码与 Mask:顺序、可见性和长上下文边界
- 基础知识:优化与训练:loss 怎样变成一次可靠更新
- 基础知识:数值、显存与运行时:模型为什么数学可行但系统跑不动
- 基础知识:归一化、残差与激活:深层网络为什么能稳住
- 基础知识:多模态推理:先看见证据,再组织推理
- 基础知识:MoE 与大模型架构:总参数、激活参数和路由成本
- 基础知识:Mamba 与混合 SSM 架构
- 基础知识:线性层、MLP 与 GEMM:模型里的矩阵乘为什么这么重要
- 基础知识:数据划分与评测指标:一个分数为什么不够
- 基础知识:卷积与视觉特征:局部窗口如何变成多尺度表示
- 基础知识:自动微分与激活显存:训练为什么要保存中间值
1