Tag: 量化 | Charles's Castle

Charles's Castle

Charles's Castle

HOME
CATEGORIES
TAGS
ABOUT
- ME
- GITHUB
- BLOG
- STATISTICS

HOME
CATEGORIES
TAGS
ABOUT

ME

GITHUB

BLOG

STATISTICS
Archives
Photos
Essays
Friends

量化

2026 4

知识问答：推理服务与量化 QA
量化：最小数学：格子、误差和输出保持
世界模型：Rollout 服务、量化与 Kernel：省成本不能省掉动作因果
训练：低比特训练与数值格式：误差会被写回参数

2025 16

量化：服务栈与硬件选择
量化：运行时与部署框架
量化：多模态与 VLA 模型量化
量化：QLoRA：低显存微调，不是把模型“训练成 4bit”
量化：QAT、Kernel 与 KV Cache
量化：PTQ、GPTQ、AWQ 与 SmoothQuant：先找瓶颈，再分误差预算
量化：FP8 与混合精度推理：它不是一个 dtype 开关
量化：评测与部署清单
量化：方法对照表
量化：激活离群值：为什么量化常常败在 activation 上
论文专题讲解：DeepSeek-V4：百万上下文与 FP4 后训练
论文专题讲解：DeepSeek-V3：671B MoE、MLA 与 FP8 训练
论文专题讲解：Low-bit LLM Survey：低比特大模型从格式到推理系统
算子与编译器：低精度与量化 Kernel
算子与编译器：FP8 训练与优化器 Kernel
算子与编译器：DeepGEMM：FP8 GEMM 与 Mega-MoE

1

© 2022 - 2026 Charles

558 posts in total 2222.4k words in total

VISITOR COUNT TOTAL PAGE VIEWS

POWERED BY Hexo THEME Redefine v2.9.0

Blog up for days hrs Min Sec

EXIF