基础知识
2026
16
- 知识问答:具身智能与 VLA QA
- 知识问答:世界模型 QA
- 知识问答:多模态与生成模型 QA
- 知识问答:训练与对齐 QA
- 知识问答:RAG、Agent 与评估 QA
- 知识问答:算子与性能 QA
- 知识问答:推理服务与量化 QA
- 知识问答:基础与 Transformer QA
- 论文专题讲解:GPU Utilization:为什么 100% 不等于训练跑满
- 基础知识:模型压缩、剪枝与 NAS:先问省的是哪张账
- 基础知识:预训练目标与表示学习:模型到底被要求学什么
- 基础知识:生成与解码:模型给出概率后,系统怎样选 token
- 基础知识:泛化、正则化与分布偏移:训练 loss 下降为什么不等于模型可用
- 基础知识:数据与数据集基础:模型真正吃下去的不是“文件夹”
- 基础知识:模型蒸馏入门
- 基础知识:读懂公式的最小数学:接口、概率、loss 和梯度
2025
21
- 论文专题讲解:ZeRO:数据并行真正浪费的是训练状态副本
- 论文专题讲解:SLA / SLA2:DiT 稀疏线性 Attention
- 论文专题讲解:Muon:LLM 预训练优化器
- 论文专题讲解:Megatron-LM:Tensor Model Parallel 的大模型训练栈
- 论文专题讲解:MagiAttention:超长上下文分布式 Attention
- 论文专题讲解:Attn-QAT:4-bit Attention 量化感知训练
- 基础知识:Transformer、Tokenization 与注意力
- 基础知识:张量、Shape 与计算图:为什么很多模型问题先是接口问题
- 基础知识:Prompt、CoT 与 RAG:把模型输入做成可验证的信息流
- 基础知识:概率与潜变量模型:生成模型到底在学什么
- 基础知识:位置编码与 Mask:顺序、可见性和长上下文边界
- 基础知识:优化与训练:loss 怎样变成一次可靠更新
- 基础知识:数值、显存与运行时:模型为什么数学可行但系统跑不动
- 基础知识:归一化、残差与激活:深层网络为什么能稳住
- 基础知识:多模态推理:先看见证据,再组织推理
- 基础知识:MoE 与大模型架构:总参数、激活参数和路由成本
- 基础知识:Mamba 与混合 SSM 架构
- 基础知识:线性层、MLP 与 GEMM:模型里的矩阵乘为什么这么重要
- 基础知识:数据划分与评测指标:一个分数为什么不够
- 基础知识:卷积与视觉特征:局部窗口如何变成多尺度表示
- 基础知识:自动微分与激活显存:训练为什么要保存中间值
1