Tag: 基础知识 | Charles's Castle

Charles's Castle

Charles's Castle

HOME
CATEGORIES
TAGS
ABOUT
- ME
- GITHUB
- BLOG
- STATISTICS

HOME
CATEGORIES
TAGS
ABOUT

ME

GITHUB

BLOG

STATISTICS
Archives
Photos
Essays
Friends

基础知识

2026 16

知识问答：具身智能与 VLA QA
知识问答：世界模型 QA
知识问答：多模态与生成模型 QA
知识问答：训练与对齐 QA
知识问答：RAG、Agent 与评估 QA
知识问答：算子与性能 QA
知识问答：推理服务与量化 QA
知识问答：基础与 Transformer QA
论文专题讲解：GPU Utilization：为什么 100％不等于训练跑满
基础知识：模型压缩、剪枝与 NAS：先问省的是哪张账
基础知识：预训练目标与表示学习：模型到底被要求学什么
基础知识：生成与解码：模型给出概率后，系统怎样选 token
基础知识：泛化、正则化与分布偏移：训练 loss 下降为什么不等于模型可用
基础知识：数据与数据集基础：模型真正吃下去的不是“文件夹”
基础知识：模型蒸馏入门
基础知识：读懂公式的最小数学：接口、概率、loss 和梯度

2025 21

论文专题讲解：ZeRO：数据并行真正浪费的是训练状态副本
论文专题讲解：SLA / SLA2：DiT 稀疏线性 Attention
论文专题讲解：Muon：LLM 预训练优化器
论文专题讲解：Megatron-LM：Tensor Model Parallel 的大模型训练栈
论文专题讲解：MagiAttention：超长上下文分布式 Attention
论文专题讲解：Attn-QAT：4-bit Attention 量化感知训练
基础知识：Transformer、Tokenization 与注意力
基础知识：张量、Shape 与计算图：为什么很多模型问题先是接口问题
基础知识：Prompt、CoT 与 RAG：把模型输入做成可验证的信息流
基础知识：概率与潜变量模型：生成模型到底在学什么
基础知识：位置编码与 Mask：顺序、可见性和长上下文边界
基础知识：优化与训练：loss 怎样变成一次可靠更新
基础知识：数值、显存与运行时：模型为什么数学可行但系统跑不动
基础知识：归一化、残差与激活：深层网络为什么能稳住
基础知识：多模态推理：先看见证据，再组织推理
基础知识：MoE 与大模型架构：总参数、激活参数和路由成本
基础知识：Mamba 与混合 SSM 架构
基础知识：线性层、MLP 与 GEMM：模型里的矩阵乘为什么这么重要
基础知识：数据划分与评测指标：一个分数为什么不够
基础知识：卷积与视觉特征：局部窗口如何变成多尺度表示
基础知识：自动微分与激活显存：训练为什么要保存中间值

1

© 2022 - 2026 Charles

558 posts in total 2222.4k words in total

VISITOR COUNT TOTAL PAGE VIEWS

POWERED BY Hexo THEME Redefine v2.9.0

Blog up for days hrs Min Sec

EXIF