模型量化
通过降低神经网络权重和激活值的数值精度(FP32 → FP16 → INT8 → INT4 → 1-bit),在保持模型精度的前提下大幅缩减模型体积和计算需求。
定义
模型量化(Quantization)是将神经网络的权重和激活值从高精度(FP32 / FP16)映射到低精度(INT8 / INT4 / 1-bit)的过程,目的是减少模型大小、降低显存占用、提升推理速度。
主要方案
| 方案 | 提出方 | 精度 | 特点 |
|---|---|---|---|
| GPTQ | 学术界 | INT4 / INT3 | 后训练量化,逐层补偿误差 |
| AWQ | MIT-IBM | INT4 | 激活感知,保留重要权重精度 |
| GGUF | llama.cpp 团队 | INT4-INT8 | 端侧推理标准格式 |
| OneBit | 清华+哈工大 | 1-bit | 极限压缩,>90% 压缩比 |
| BitsAndBytes | Tim Dettmers | INT8/INT4 | PyTorch 友好 |
| FP8 | NVIDIA | FP8 | H100/H200 硬件加速 |
在 AI 产业链中的角色
- 推理成本下降的核心技术驱动力:2024-25 主流大模型推理成本下降 90% 中量化贡献约 1/3
- 端侧 AI 部署的前提:INT4 / GGUF 让 7B 模型可在端侧手机/PC 上运行
- 2024-25 演进至 1-bit 极限:清华 + 哈工大 OneBit 框架首次实现大模型权重压缩超过 90% 并保留 83% 的能力
- DeepSeek-R1 "注意力门控"机制:仅 20% 权重活跃,推理速度提升 3 倍
主要玩家
- 学术界:MIT、清华、哈工大、IST、华盛顿大学
- 工业界:NVIDIA / Hugging Face Optimum / Qualcomm / llama.cpp 社区
- 中国玩家:硅基流动 / 商汤科技 / 摩尔线程 / 华为 昇腾团队
演进历史
- 2016-2018 INT8 量化在 CV 模型普及
- 2022-09 GPTQ 论文发布
- 2023-06 AWQ 论文发布
- 2023-08 GGUF 格式确立
- 2024-02 OneBit 1-bit 量化
- 2025-01 DeepSeek-R1 注意力门控机制
相关概念
- GPTQ
- AWQ
- GGUF
- OneBit
- 模型剪枝
- 知识蒸馏
- FlashAttention
- PagedAttention
∈ belongs_to::4-04-模型部署与优化