基础知识
2025
18
- 论文专题讲解:SLA / SLA2:DiT 稀疏线性 Attention
- 论文专题讲解:Muon:LLM 预训练优化器
- 论文专题讲解:MagiAttention:超长上下文分布式 Attention
- 论文专题讲解:Attn-QAT:4-bit Attention 量化感知训练
- 基础知识:Transformer 输入与注意力
- 基础知识:张量、Shape 与计算图
- 基础知识:Prompt、CoT 与 RAG 入门
- 基础知识:概率与潜变量模型
- 基础知识:位置编码与 Mask:顺序和可见性
- 基础知识:优化与训练入门
- 基础知识:数值、显存与运行时
- 基础知识:Norm、残差与激活函数
- 基础知识:多模态推理入门
- 基础知识:Mamba 与混合 SSM 架构
- 基础知识:线性层到 GEMM
- 基础知识:数据划分与评测指标
- 基础知识:卷积与视觉特征
- 基础知识:自动微分与激活显存
1