Charles's Castle

This is Charles's Castle

Archives Photos Essays Friends

Charles

Lv8

Categories

558

Posts

量化：多模态与 VLA 模型量化

量化在 LLM 上已相对成熟，但到了 VLM、视频模型、VLA 和具身系统，问题会明显复杂化。原因不只是模型更大，而是输入分布更杂、模块更多、对细粒度结构和时序稳定性的要求更高。一个在文本问答上还能接受的量化误差，到了文档理解、UI grounding 或机器人动作生成中，可能就会被放大成明显错误。因此，多模态与 VL
2025-12-21
AI

>

量化
AI

| 多模态

| 具身智能
Read more量化：多模态与 VLA 模型量化
量化：QLoRA：低显存微调，不是把模型“训练成 4bit”

QLoRA 很容易被一句话误导：用 4bit 训练大模型。更准确的说法是：冻结的底座模型用 4bit 存储，训练时只更新一小组 LoRA adapter；梯度穿过量化底座流向 adapter，但底座权重本身不做全量更新。这篇只回答一个问题：QLoRA 为什么能显著省显存，同时又和 PTQ、QAT、全量低比特训练不是
2025-12-19
AI

>

量化
AI

| 训练

| 量化
Read more量化：QLoRA：低显存微调，不是把模型“训练成 4bit”
量化：QAT、Kernel 与 KV Cache

这一页把三件常被混在一起的事情拆开： QAT 解决模型怎样适应量化误差， kernel 决定低比特是否真的跑得快， KV cache quantization 解决长上下文推理里的动态显存和带宽。核心问题量化落地最容易出错的地方，是把“模型能承受低比特误差”“低比特路径真的跑得快”“长上下文显存真的下降”混成一件事
2025-12-17
AI

>

量化
AI

| 推理

| GPU 系统
Read more量化：QAT、Kernel 与 KV Cache
量化：PTQ、GPTQ、AWQ 与 SmoothQuant：先找瓶颈，再分误差预算

这篇回答的问题。如何理解“PTQ、GPTQ、AWQ 与 SmoothQuant”背后的核心机制、适用边界和下一步阅读路径。量化不是把 float16 文件改成 int4 文件。它真正做的是：用更少的离散格子近似原来的连续数值，同时让模型质量、服务延迟和长尾任务尽量不坏。文件变小只说明存储少了；上线成功还要证明低比特
2025-12-16
AI

>

量化
AI

| 量化

| 推理优化
Read more量化：PTQ、GPTQ、AWQ 与 SmoothQuant：先找瓶颈，再分误差预算
量化：FP8 与混合精度推理：它不是一个 dtype 开关

FP8 在服务里的价值，不是把全模型粗暴改成 8 bit，而是把最吃带宽、最适合 Tensor Core 的大块矩阵计算放到低精度路径上，同时把归一化、softmax、残差、输出头、KV cache、坐标或动作头这些敏感位置留在更高精度或更谨慎的量化策略里。所以判断 FP8 值不值得上，先别问“能不能压到 8 bit
2025-12-14
AI

>

量化
AI

| 推理

| 量化
Read more量化：FP8 与混合精度推理：它不是一个 dtype 开关
量化：评测与部署清单

量化工作最常见的问题，不是“没有方法”，而是离线评测太乐观、线上指标没对齐、精度和系统收益没有同时看。因此这一页给出一个更像 checklist 的结构，帮助把量化从论文实验推进到真实部署。图源：SmoothQuant。原图表达 activation outlier 可以通过等价缩放迁移到权重侧，让 W8A8 更可
2025-12-12
AI

>

量化
AI

| 数据与评测

| 部署与安全
Read more量化：评测与部署清单
量化：方法对照表

这一页把量化主线里的代表方法放在同一页，不只是为了记住名字，而是为了回答三个工程里最常见的问题：误差主要出现在权重、激活、KV cache，还是量化 kernel 和调度兼容性上；某种方法“更准”到底是因为二阶补偿、通道保护、平滑激活，还是训练时已经让模型适应了量化噪声；真实线上收益到底来自显存下降、吞吐增加、单卡可部
2025-12-10
AI

>

量化
AI

| 量化

| 推理优化
Read more量化：方法对照表
量化：激活离群值：为什么量化常常败在 activation 上

量化听起来像一个存储问题：把 FP16/BF16 权重换成 INT8/INT4，显存立刻下降。但真正让低比特部署翻车的，往往不是权重，而是 activation。权重在推理前已经固定，可以离线统计、分组、搜索；activation 是每个 prompt、每张图、每段上下文现场产生的动态张量。校准集没有覆盖到的输入，可能
2025-12-09
AI

>

量化
AI

| 量化

| 推理优化
Read more量化：激活离群值：为什么量化常常败在 activation 上
论文专题讲解：Embodied World Model Survey：具身世界模型综述

论文题名： A Comprehensive Survey on World Models for Embodied AI。作者： Xinqing Li、Xin He、Le Zhang、Min Wu、Xiaoli Li、Yun Liu。机构： This work was supported in part by th
2025-12-07
AI

>

论文专题讲解
AI

| 具身智能

| 世界模型
Read more论文专题讲解：Embodied World Model Survey：具身世界模型综述
论文专题讲解：V-JEPA：视频潜变量预测表征

论文题名： Revisiting Feature Prediction for Learning Visual Representations from Video。作者： Adrien Bardes、Quentin Garrido、Jean Ponce、Xinlei Chen、Michael Rabbat、Yann
2025-12-05
AI

>

论文专题讲解
AI

| 世界模型

| 论文专题
Read more论文专题讲解：V-JEPA：视频潜变量预测表征

1…10 111213 14…56