量化
2026
4
2025
16
- 量化:服务栈与硬件选择
- 量化:运行时与部署框架
- 量化:多模态与 VLA 模型量化
- 量化:QLoRA:低显存微调,不是把模型“训练成 4bit”
- 量化:QAT、Kernel 与 KV Cache
- 量化:PTQ、GPTQ、AWQ 与 SmoothQuant:先找瓶颈,再分误差预算
- 量化:FP8 与混合精度推理:它不是一个 dtype 开关
- 量化:评测与部署清单
- 量化:方法对照表
- 量化:激活离群值:为什么量化常常败在 activation 上
- 论文专题讲解:DeepSeek-V4:百万上下文与 FP4 后训练
- 论文专题讲解:DeepSeek-V3:671B MoE、MLA 与 FP8 训练
- 论文专题讲解:Low-bit LLM Survey:低比特大模型从格式到推理系统
- 算子与编译器:低精度与量化 Kernel
- 算子与编译器:FP8 训练与优化器 Kernel
- 算子与编译器:DeepGEMM:FP8 GEMM 与 Mega-MoE
1