AI产业链地图·知识库 GPTQ · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/GPTQ

更新 2026·06·17

概念技术 / 术语

GPTQ

GPTQ 量化 · GPT Quantization

GPTQ（GPT Quantization）由 IST Austria 团队 2022 年提出，是基于近似二阶信息（Hessian 矩阵）的逐层后训练量化方法。

GPTQ CONCEPT · 概念

首次提出: 2022
关键参与方: [[Hugging Face]] · [[vLLM]]
反向引用: 8 处 · 来自 5 页

归属量化INT4LLM第四层

GPTQ

大语言模型的后训练 INT4/INT3 量化方案，逐层补偿误差，无需重新训练即可实现 4-bit 量化且精度损失极小。

定义

GPTQ（GPT Quantization）由 IST Austria 团队 2022 年提出，是基于近似二阶信息（Hessian 矩阵）的逐层后训练量化方法。

核心原理

逐层处理权重矩阵
利用 Hessian 矩阵近似估计每个权重的重要性
量化时按列处理，每量化一列后更新其他列以补偿误差
实现 4-bit / 3-bit / 2-bit 量化，精度损失通常 < 1%

主要玩家

学术界：IST Austria（Elias Frantar 等）
工业界：Hugging Face Optimum / AutoGPTQ 集成
推理引擎：vLLM / NVIDIA TensorRT-LLM / llama.cpp 原生支持

在 AI 产业链中的角色

大模型量化事实标准之一：与 AWQ、GGUF 并列三大主流方案
开源社区标配：Hugging Face 上数千个 GPTQ 量化版本模型可用
2024-25 推理成本下降的核心技术驱动力之一

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 8

按引用量 ↓

… - 这些"显著权重"对应的输入激活值较大 - 对显著权重保留 FP16，其他权重 INT4 - 通过 per-group scale 调整，避免精度损失 ## 与 GPTQ 对比 | 维度 | GPTQ | AWQ | |---|---|---| | 量化原理 | 二阶 Hessian 补偿 | 激活感知保留重要权重 | | 速度 | 较慢（需要 Hessian 计算） | 较快 | …

… - 推理引擎：[[vLLM]] / [[NVIDIA TensorRT-LLM]] / llama.cpp 原生支持 ## 在 AI 产业链中的角色 - **大模型量化事实标准之一**：与 GPTQ、[[GGUF]] 并列三大主流方案 - **Llama 系列默认推荐量化方案**：MetaAI 在文档中推荐 AWQ - **端侧部署友好**：在端侧硬件上比 GPTQ 速度更快 …

… - **Llama 系列默认推荐量化方案**：MetaAI 在文档中推荐 AWQ - **端侧部署友好**：在端侧硬件上比 GPTQ 速度更快 ## 相关概念 - [[模型量化]] - GPTQ- [[GGUF]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… P32 / FP16）映射到低精度（INT8 / INT4 / 1-bit）的过程，目的是减少模型大小、降低显存占用、提升推理速度。 ## 主要方案 | 方案 | 提出方 | 精度 | 特点 | |---|---|---|---| | GPTQ | 学术界 | INT4 / INT3 | 后训练量化，逐层补偿误差 | | [[AWQ]] | MIT-IBM | INT4 | 激活感知，保留重要权重精度 | …

… - **2023-08** GGUF 格式确立 - **2024-02** OneBit 1-bit 量化 - **2025-01** DeepSeek-R1 注意力门控机制 ## 相关概念 - GPTQ- [[AWQ]] - [[GGUF]] - [[OneBit]] - [[模型剪枝]] - [[知识蒸馏]] - [[FlashAttention]] - [[PagedAttention]] …

查看原文 →

… ### 独立未上市 - [[Hugging Face]] — 国际，但与中国生态深度互通 ## 核心技术维度 1. **模型量化与压缩**：[[INT4 量化]] / GPTQ / [[AWQ]] / [[GGUF]] / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Batching]] / …

查看原文 →

… - **2024** 成为端侧 LLM 部署事实标准 - **2025** 持续扩展支持新模型架构（MoE / 多模态） ## 相关概念 - [[模型量化]] - GPTQ- [[AWQ]] - [[llama.cpp]] - [[端侧AI]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **[[Continuous Batching]]**：动态批处理，请求级别拼批，吞吐量较静态批处理 +10-20× - **Tensor Parallelism**：原生支持多 GPU 张量并行 - **量化支持**：GPTQ / [[AWQ]] / [[GGUF]] / FP8 多种量化格式 - **[[投机解码]]** 支持 - 多硬件后端：[[NVIDIA]] GPU / [[AMD]] MI 系列 / [[华为]] 昇腾 / [[Intel]] Gaud …

查看原文 →