AI产业链地图·知识库 AWQ · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/AWQ

更新 2026·06·17

概念技术 / 术语

AWQ

Activation-aware Weight Quantization · 激活感知量化

AWQ（Activation-aware Weight Quantization）通过观察激活值的分布，识别对模型输出影响最大的"显著权重"（salient weights），对这些权重保留较高精度，对其他权重做激进量化。

AWQ CONCEPT · 概念

首次提出: 2023
关键参与方: [[Hugging Face]] · [[vLLM]]
反向引用: 7 处 · 来自 5 页

归属量化INT4LLM第四层

AWQ

MIT-IBM 团队提出的 激活感知权重量化（Activation-aware Weight Quantization），识别并保留"重要权重"的精度，实现 INT4 量化且精度损失更小。

定义

AWQ（Activation-aware Weight Quantization）通过观察激活值的分布，识别对模型输出影响最大的"显著权重"（salient weights），对这些权重保留较高精度，对其他权重做激进量化。

核心原理

只有约 1% 的权重对推理结果"显著重要"（基于激活值大小判断）
这些"显著权重"对应的输入激活值较大
对显著权重保留 FP16，其他权重 INT4
通过 per-group scale 调整，避免精度损失

与 GPTQ 对比

维度	GPTQ	AWQ
量化原理	二阶 Hessian 补偿	激活感知保留重要权重
速度	较慢（需要 Hessian 计算）	较快
精度损失	< 1%	< 1%
部署友好度	较好	更好（保留激活分布信息）

主要玩家

学术界：MIT-IBM Watson AI Lab（韩松团队）
工业界：Hugging Face / AutoAWQ / TinyChat
推理引擎：vLLM / NVIDIA TensorRT-LLM / llama.cpp 原生支持

在 AI 产业链中的角色

大模型量化事实标准之一：与 GPTQ、GGUF 并列三大主流方案
Llama 系列默认推荐量化方案：MetaAI 在文档中推荐 AWQ
端侧部署友好：在端侧硬件上比 GPTQ 速度更快

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 7

按引用量 ↓

… - 推理引擎：[[vLLM]] / [[NVIDIA TensorRT-LLM]] / llama.cpp 原生支持 ## 在 AI 产业链中的角色 - **大模型量化事实标准之一**：与 AWQ、[[GGUF]] 并列三大主流方案 - **开源社区标配**：Hugging Face 上数千个 GPTQ 量化版本模型可用 - **2024-25 推理成本下降的核心技术驱动力之一** …

… - **开源社区标配**：Hugging Face 上数千个 GPTQ 量化版本模型可用 - **2024-25 推理成本下降的核心技术驱动力之一** ## 相关概念 - [[模型量化]] - AWQ- [[GGUF]] - [[OneBit]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… | 方案 | 提出方 | 精度 | 特点 | |---|---|---|---| | [[GPTQ]] | 学术界 | INT4 / INT3 | 后训练量化，逐层补偿误差 | | AWQ | MIT-IBM | INT4 | 激活感知，保留重要权重精度 | | [[GGUF]] | llama.cpp 团队 | INT4-INT8 | 端侧推理标准格式 | …

… - **2024-02** OneBit 1-bit 量化 - **2025-01** DeepSeek-R1 注意力门控机制 ## 相关概念 - [[GPTQ]] - AWQ- [[GGUF]] - [[OneBit]] - [[模型剪枝]] - [[知识蒸馏]] - [[FlashAttention]] - [[PagedAttention]] …

查看原文 →

… - [[Hugging Face]] — 国际，但与中国生态深度互通 ## 核心技术维度 1. **模型量化与压缩**：[[INT4 量化]] / [[GPTQ]] / AWQ / [[GGUF]] / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Batching]] / [[投机解码]] / …

查看原文 →

… - **2024** 成为端侧 LLM 部署事实标准 - **2025** 持续扩展支持新模型架构（MoE / 多模态） ## 相关概念 - [[模型量化]] - [[GPTQ]] - AWQ- [[llama.cpp]] - [[端侧AI]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… *[[Continuous Batching]]**：动态批处理，请求级别拼批，吞吐量较静态批处理 +10-20× - **Tensor Parallelism**：原生支持多 GPU 张量并行 - **量化支持**：[[GPTQ]] / AWQ / [[GGUF]] / FP8 多种量化格式 - **[[投机解码]]** 支持 - 多硬件后端：[[NVIDIA]] GPU / [[AMD]] MI 系列 / [[华为]] 昇腾 / [[Intel]] Gaudi / TPU …

查看原文 →