推理
2026
7
2025
26
- 量化:服务栈与硬件选择
- 量化:QAT、Kernel 与 KV Cache
- 量化:FP8 与混合精度推理:它不是一个 dtype 开关
- 论文专题讲解:Qwen3.5-Omni:Thinker-Talker 与全模态 Agent
- 论文专题讲解:Kimi K2:MuonClip、万亿 MoE 与 Agent 数据
- 论文专题讲解:Gemini 2.5:动态 Thinking 与长上下文 Agent
- 论文专题讲解:Low-bit LLM Survey:低比特大模型从格式到推理系统
- 论文专题讲解:KVSlimmer:非对称 KV 合并的数学与工程
- 论文专题讲解:Fast-FoundationStereo:实时 Zero-Shot 双目匹配
- 论文专题讲解:EAGLE:为什么 draft 不一定要是一个小模型
- 论文专题讲解:EAGLE-3:为什么 draft model 要在训练时“见过自己犯错”
- 论文专题讲解:EAGLE-2:用动态 Draft Tree 加速投机解码
- 算子与编译器:推理 Attention 与 KV Kernel
- 推理:服务系统:快模型为什么上线后仍然慢
- 推理:运行时:按请求生命周期选择 vLLM、SGLang 与 TensorRT-LLM
- 推理:RAG、Agent 与长上下文系统
- 推理:容量规划与推理优化
- 推理:可观测性与在线评测
- 推理:MoE 路由与多模型服务
- 推理:GPU Kernel、Batching 与显存
- 推理:解耦 Prefill 与 KV 服务
- 推理:成本建模与 SLO 设计
- 推理:上下文压缩与 KV 内存管理
- 推理:KV、缓存与投机解码:把贵模型用在值得的位置
- 基础知识:Prompt、CoT 与 RAG:把模型输入做成可验证的信息流
- 扩散模型:扩散采样与推理加速
1