AI产业链地图·知识库 AWQ · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

AWQ

Activation-aware Weight Quantization · 激活感知量化

AWQ(Activation-aware Weight Quantization)通过观察激活值的分布,识别对模型输出影响最大的"显著权重"(salient weights),对这些权重保留较高精度,对其他权重做激进量化。

AWQ CONCEPT · 概念
首次提出
2023
关键参与方
[[Hugging Face]] · [[vLLM]]
反向引用
7 处 · 来自 5
归属 量化INT4LLM第四层

AWQ

MIT-IBM 团队提出的 激活感知权重量化(Activation-aware Weight Quantization),识别并保留"重要权重"的精度,实现 INT4 量化且精度损失更小。

定义

AWQ(Activation-aware Weight Quantization)通过观察激活值的分布,识别对模型输出影响最大的"显著权重"(salient weights),对这些权重保留较高精度,对其他权重做激进量化。

核心原理

  • 只有约 1% 的权重对推理结果"显著重要"(基于激活值大小判断)
  • 这些"显著权重"对应的输入激活值较大
  • 对显著权重保留 FP16,其他权重 INT4
  • 通过 per-group scale 调整,避免精度损失

与 GPTQ 对比

维度 GPTQ AWQ
量化原理 二阶 Hessian 补偿 激活感知保留重要权重
速度 较慢(需要 Hessian 计算) 较快
精度损失 < 1% < 1%
部署友好度 较好 更好(保留激活分布信息)

主要玩家

在 AI 产业链中的角色

  • 大模型量化事实标准之一:与 GPTQGGUF 并列三大主流方案
  • Llama 系列默认推荐量化方案:MetaAI 在文档中推荐 AWQ
  • 端侧部署友好:在端侧硬件上比 GPTQ 速度更快

相关概念

∈ belongs_to::4-04-模型部署与优化