AI产业链地图·知识库 模型量化 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/模型量化
更新 2026·06·17
概念 技术 / 术语

模型量化

Quantization · INT8 量化 · INT4 量化 · FP16 量化 · 1-bit 量化

模型量化(Quantization)是将神经网络的权重和激活值从高精度(FP32 / FP16)映射到低精度(INT8 / INT4 / 1-bit)的过程,目的是减少模型大小、降低显存占用、提升推理速度。

模型量化 CONCEPT · 概念
首次提出
2016
关键参与方
[[NVIDIA]] · [[Hugging Face]] · [[Qualcomm]]
反向引用
12 处 · 来自 10
归属 模型压缩推理优化LLM第四层

模型量化

通过降低神经网络权重和激活值的数值精度(FP32 → FP16 → INT8 → INT4 → 1-bit),在保持模型精度的前提下大幅缩减模型体积和计算需求。

定义

模型量化(Quantization)是将神经网络的权重和激活值从高精度(FP32 / FP16)映射到低精度(INT8 / INT4 / 1-bit)的过程,目的是减少模型大小、降低显存占用、提升推理速度。

主要方案

方案 提出方 精度 特点
GPTQ 学术界 INT4 / INT3 后训练量化,逐层补偿误差
AWQ MIT-IBM INT4 激活感知,保留重要权重精度
GGUF llama.cpp 团队 INT4-INT8 端侧推理标准格式
OneBit 清华+哈工大 1-bit 极限压缩,>90% 压缩比
BitsAndBytes Tim Dettmers INT8/INT4 PyTorch 友好
FP8 NVIDIA FP8 H100/H200 硬件加速

在 AI 产业链中的角色

  • 推理成本下降的核心技术驱动力:2024-25 主流大模型推理成本下降 90% 中量化贡献约 1/3
  • 端侧 AI 部署的前提:INT4 / GGUF 让 7B 模型可在端侧手机/PC 上运行
  • 2024-25 演进至 1-bit 极限:清华 + 哈工大 OneBit 框架首次实现大模型权重压缩超过 90% 并保留 83% 的能力
  • DeepSeek-R1 "注意力门控"机制:仅 20% 权重活跃,推理速度提升 3 倍

主要玩家

演进历史

  • 2016-2018 INT8 量化在 CV 模型普及
  • 2022-09 GPTQ 论文发布
  • 2023-06 AWQ 论文发布
  • 2023-08 GGUF 格式确立
  • 2024-02 OneBit 1-bit 量化
  • 2025-01 DeepSeek-R1 注意力门控机制

相关概念

∈ belongs_to::4-04-模型部署与优化