AI产业链地图·知识库 GPTQ · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

GPTQ

GPTQ 量化 · GPT Quantization

GPTQ(GPT Quantization)由 IST Austria 团队 2022 年提出,是基于近似二阶信息(Hessian 矩阵)的逐层后训练量化方法。

GPTQ CONCEPT · 概念
首次提出
2022
关键参与方
[[Hugging Face]] · [[vLLM]]
反向引用
8 处 · 来自 5
归属 量化INT4LLM第四层

GPTQ

大语言模型的后训练 INT4/INT3 量化方案,逐层补偿误差,无需重新训练即可实现 4-bit 量化且精度损失极小。

定义

GPTQ(GPT Quantization)由 IST Austria 团队 2022 年提出,是基于近似二阶信息(Hessian 矩阵)的逐层后训练量化方法。

核心原理

  • 逐层处理权重矩阵
  • 利用 Hessian 矩阵近似估计每个权重的重要性
  • 量化时按列处理,每量化一列后更新其他列以补偿误差
  • 实现 4-bit / 3-bit / 2-bit 量化,精度损失通常 < 1%

主要玩家

在 AI 产业链中的角色

  • 大模型量化事实标准之一:与 AWQGGUF 并列三大主流方案
  • 开源社区标配:Hugging Face 上数千个 GPTQ 量化版本模型可用
  • 2024-25 推理成本下降的核心技术驱动力之一

相关概念

∈ belongs_to::4-04-模型部署与优化