Tag: 推理 | Charles's Castle

Charles's Castle

Charles's Castle

HOME
CATEGORIES
TAGS
ABOUT
- ME
- GITHUB
- BLOG
- STATISTICS

HOME
CATEGORIES
TAGS
ABOUT

ME

GITHUB

BLOG

STATISTICS
Archives
Photos
Essays
Friends

推理

2026 7

知识问答：RAG、Agent 与评估 QA
知识问答：推理服务与量化 QA
论文专题讲解：vLLM / PagedAttention：为什么 KV cache 需要分页管理
世界模型：Rollout 服务、量化与 Kernel：省成本不能省掉动作因果
参考与规范：全站效率技术覆盖矩阵
世界模型：高效训练效率技术覆盖矩阵
世界模型：规划即推理与潜在动作

2025 26

量化：服务栈与硬件选择
量化：QAT、Kernel 与 KV Cache
量化：FP8 与混合精度推理：它不是一个 dtype 开关
论文专题讲解：Qwen3.5-Omni：Thinker-Talker 与全模态 Agent
论文专题讲解：Kimi K2：MuonClip、万亿 MoE 与 Agent 数据
论文专题讲解：Gemini 2.5：动态 Thinking 与长上下文 Agent
论文专题讲解：Low-bit LLM Survey：低比特大模型从格式到推理系统
论文专题讲解：KVSlimmer：非对称 KV 合并的数学与工程
论文专题讲解：Fast-FoundationStereo：实时 Zero-Shot 双目匹配
论文专题讲解：EAGLE：为什么 draft 不一定要是一个小模型
论文专题讲解：EAGLE-3：为什么 draft model 要在训练时“见过自己犯错”
论文专题讲解：EAGLE-2：用动态 Draft Tree 加速投机解码
算子与编译器：推理 Attention 与 KV Kernel
推理：服务系统：快模型为什么上线后仍然慢
推理：运行时：按请求生命周期选择 vLLM、SGLang 与 TensorRT-LLM
推理：RAG、Agent 与长上下文系统
推理：容量规划与推理优化
推理：可观测性与在线评测
推理：MoE 路由与多模型服务
推理：GPU Kernel、Batching 与显存
推理：解耦 Prefill 与 KV 服务
推理：成本建模与 SLO 设计
推理：上下文压缩与 KV 内存管理
推理：KV、缓存与投机解码：把贵模型用在值得的位置
基础知识：Prompt、CoT 与 RAG：把模型输入做成可验证的信息流
扩散模型：扩散采样与推理加速

1

© 2022 - 2026 Charles

558 posts in total 2222.4k words in total

VISITOR COUNT TOTAL PAGE VIEWS

POWERED BY Hexo THEME Redefine v2.9.0

Blog up for days hrs Min Sec

EXIF