Tag: GPU 系统 | Charles's Castle

Charles's Castle

Charles's Castle

HOME
CATEGORIES
TAGS
ABOUT
- ME
- GITHUB
- BLOG
- STATISTICS

HOME
CATEGORIES
TAGS
ABOUT

ME

GITHUB

BLOG

STATISTICS
Archives
Photos
Essays
Friends

GPU 系统

2026 2

知识问答：算子与性能 QA
世界模型：Rollout 服务、量化与 Kernel：省成本不能省掉动作因果

2025 28

量化：QAT、Kernel 与 KV Cache
算子与编译器：Workload 建模与 Shape Bucketing
算子与编译器：Triton 编程模型与自动调优：先画 tile，再谈速度
算子与编译器：Kernel 测试、回归与维护
算子与编译器：推理 Attention 与 KV Kernel
算子与编译器：Runtime Dispatch 与 Kernel 选择
算子与编译器：Roofline 建模与性能案例
算子与编译器：Reduction、Norm、Layout 与 Indexing：小算子为什么能拖慢大模型
算子与编译器：PTX / SASS 与编译检查
算子与编译器：Profiling、调试与数值稳定
算子与编译器：性能反模式与失败案例
算子与编译器：MoE 路由与稀疏 Kernel
算子与编译器：低精度与量化 Kernel
算子与编译器：FlashAttention 与长上下文：先分清三张账
算子与编译器：Kernel 成本模型与选型
算子与编译器：硬件感知排查清单
算子与编译器：GPU 互联与拓扑映射
算子与编译器：GEMM、Attention 与融合 Kernel
算子与编译器：FP8 训练与优化器 Kernel
算子与编译器：DeepGEMM 源码与接入
算子与编译器：DeepGEMM：FP8 GEMM 与 Mega-MoE
算子与编译器：CUTLASS / CuTe 与编译栈
算子与编译器：自定义算子与框架集成
算子与编译器：CUDA 编程模型与内存层次：先画数据怎么走
算子与编译器：通信算子与计算重叠
算子与编译器：高级 Kernel 模式与形状特化
推理：GPU Kernel、Batching 与显存
基础知识：线性层、MLP 与 GEMM：模型里的矩阵乘为什么这么重要

1

© 2022 - 2026 Charles

558 posts in total 2222.4k words in total

VISITOR COUNT TOTAL PAGE VIEWS

POWERED BY Hexo THEME Redefine v2.9.0

Blog up for days hrs Min Sec

EXIF