GPTQ
大语言模型的后训练 INT4/INT3 量化方案,逐层补偿误差,无需重新训练即可实现 4-bit 量化且精度损失极小。
定义
GPTQ(GPT Quantization)由 IST Austria 团队 2022 年提出,是基于近似二阶信息(Hessian 矩阵)的逐层后训练量化方法。
核心原理
- 逐层处理权重矩阵
- 利用 Hessian 矩阵近似估计每个权重的重要性
- 量化时按列处理,每量化一列后更新其他列以补偿误差
- 实现 4-bit / 3-bit / 2-bit 量化,精度损失通常 < 1%
主要玩家
- 学术界:IST Austria(Elias Frantar 等)
- 工业界:Hugging Face Optimum / AutoGPTQ 集成
- 推理引擎:vLLM / NVIDIA TensorRT-LLM / llama.cpp 原生支持
在 AI 产业链中的角色
相关概念
∈ belongs_to::4-04-模型部署与优化