• 量化:服务栈与硬件选择

    量化:服务栈与硬件选择

    这一页讲量化放到服务系统里以后,怎样按硬件、延迟、吞吐、成本和质量目标做取舍。具体 runtime 兼容性放在 量化运行时与部署框架。 这页先回答“量化服务栈与硬件选择”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先懂张量、线性层和基本推理成本;遇到 FP8、KV Ca

  • 量化:运行时与部署框架

    量化:运行时与部署框架

    这一页只讲一个问题:量化模型由谁加载、谁调度、谁真正调用低比特 kernel。硬件和成本选择放在 量化服务栈与硬件选择。 这页先回答“量化运行时与部署框架”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先懂张量、线性层和基本推理成本;遇到 FP8、KV Cache、out

  • 量化:多模态与 VLA 模型量化

    量化:多模态与 VLA 模型量化

    量化在 LLM 上已相对成熟,但到了 VLM、视频模型、VLA 和具身系统,问题会明显复杂化。原因不只是模型更大,而是输入分布更杂、模块更多、对细粒度结构和时序稳定性的要求更高。一个在文本问答上还能接受的量化误差,到了文档理解、UI grounding 或机器人动作生成中,可能就会被放大成明显错误。因此,多模态与 VL

  • 量化:QLoRA 与量化训练

    量化:QLoRA 与量化训练

    QLoRA 很容易被误解成“把模型训练成 4bit”。更准确地说,它是在低比特存储的冻结底座上,训练一小组 LoRA adapter,从而把微调显存大幅降下来。 这页先回答“QLoRA 与量化训练”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先懂张量、线性层和基本推理成

  • 量化:QAT、Kernel 与 KV Cache

    量化:QAT、Kernel 与 KV Cache

    这一页把三件常被混在一起的事情拆开: QAT 解决模型怎样适应量化误差, kernel 决定低比特是否真的跑得快, KV cache quantization 解决长上下文推理里的动态显存和带宽。 这页先回答“QAT、Kernel 与 KV Cache”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪

  • 量化:PTQ、GPTQ、AWQ 与 SmoothQuant

    量化:PTQ、GPTQ、AWQ 与 SmoothQuant

    这一页讲最常见的后训练量化路线。它们都在回答同一个问题:模型已经训练好了,不想重新大规模训练,怎样把权重或激活压低 bit,同时让输出尽量不变。 这页先回答“PTQ、GPTQ、AWQ 与 SmoothQuant”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先懂张量、线性

  • 量化:FP8 与混合精度推理

    量化:FP8 与混合精度推理

    FP8 是低精度路线里很重要的一类:它比 FP16/BF16 更省显存和带宽,又比 INT4/INT8 更保留浮点的动态范围直觉。很多生产系统会把 FP8 放进混合精度方案,而不是全模型统一压到最低 bit。 这页先回答“FP8 与混合精度推理”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或

  • 量化:评测与部署清单

    量化:评测与部署清单

    量化工作最常见的问题,不是“没有方法”,而是离线评测太乐观、线上指标没对齐、精度和系统收益没有同时看。 这页先回答“量化评测与部署清单”在「量化」里的位置:它解决什么局部问题,依赖哪些前置,最后会影响哪类工程或研究判断。 前置 :先懂张量、线性层和基本推理成本;遇到 FP8、KV Cache、outlier 时回前置页

  • 量化:方法对照表

    量化:方法对照表

    这一页把量化主线里的代表方法放在同一页,不只是为了记住名字,而是为了回答三个工程里最常见的问题:误差主要出现在权重、激活、KV cache,还是量化 kernel 和调度兼容性上;某种方法“更准”到底是因为二阶补偿、通道保护、平滑激活,还是训练时已经让模型适应了量化噪声;真实线上收益到底来自显存下降、吞吐增加、单卡可部

  • 量化:激活离群值与校准策略

    量化:激活离群值与校准策略

    量化最容易被简化成“把 FP16 换成 INT8/INT4”。但真正决定成败的,常常不是权重,而是 activation。权重是训练后固定的;activation 会随着每个 prompt、每张图、每段上下文和每个 batch 动态变化。 这页先回答“激活离群值与校准策略”在「量化」里的位置:它解决什么局部问题,依赖哪

167891053