GPU 系统
2026
1
2025
27
- 算子与编译器:Workload 建模与 Shape Bucketing
- 算子与编译器:Triton 编程模型与自动调优
- 算子与编译器:Kernel 测试、回归与维护
- 算子与编译器:推理 Attention 与 KV Kernel
- 算子与编译器:Runtime Dispatch 与 Kernel 选择
- 算子与编译器:Roofline 建模与性能案例
- 算子与编译器:Reduction、Norm 与索引 Kernel
- 算子与编译器:PTX / SASS 与编译检查
- 算子与编译器:Profiling、调试与数值稳定
- 算子与编译器:性能反模式与失败案例
- 算子与编译器:MoE 路由与稀疏 Kernel
- 算子与编译器:低精度与量化 Kernel
- 算子与编译器:FlashAttention 与长上下文
- 算子与编译器:Kernel 成本模型与选型
- 算子与编译器:硬件感知排查清单
- 算子与编译器:GPU 互联与拓扑映射
- 算子与编译器:GEMM、Attention 与融合 Kernel
- 算子与编译器:FP8 训练与优化器 Kernel
- 算子与编译器:DeepGEMM 源码与接入
- 算子与编译器:DeepGEMM:FP8 GEMM 与 Mega-MoE
- 算子与编译器:CUTLASS / CuTe 与编译栈
- 算子与编译器:自定义算子与框架集成
- 算子与编译器:CUDA 编程模型与内存层次
- 算子与编译器:通信算子与计算重叠
- 算子与编译器:高级 Kernel 模式与形状特化
- 推理:GPU Kernel、Batching 与显存
- 基础知识:线性层到 GEMM
1