AWQ
MIT-IBM 团队提出的 激活感知权重量化(Activation-aware Weight Quantization),识别并保留"重要权重"的精度,实现 INT4 量化且精度损失更小。
定义
AWQ(Activation-aware Weight Quantization)通过观察激活值的分布,识别对模型输出影响最大的"显著权重"(salient weights),对这些权重保留较高精度,对其他权重做激进量化。
核心原理
- 只有约 1% 的权重对推理结果"显著重要"(基于激活值大小判断)
- 这些"显著权重"对应的输入激活值较大
- 对显著权重保留 FP16,其他权重 INT4
- 通过 per-group scale 调整,避免精度损失
与 GPTQ 对比
| 维度 | GPTQ | AWQ |
|---|---|---|
| 量化原理 | 二阶 Hessian 补偿 | 激活感知保留重要权重 |
| 速度 | 较慢(需要 Hessian 计算) | 较快 |
| 精度损失 | < 1% | < 1% |
| 部署友好度 | 较好 | 更好(保留激活分布信息) |
主要玩家
- 学术界:MIT-IBM Watson AI Lab(韩松团队)
- 工业界:Hugging Face / AutoAWQ / TinyChat
- 推理引擎:vLLM / NVIDIA TensorRT-LLM / llama.cpp 原生支持
在 AI 产业链中的角色
相关概念
∈ belongs_to::4-04-模型部署与优化