AI产业链地图·知识库 模型量化 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/模型量化

更新 2026·06·17

概念技术 / 术语

模型量化

Quantization · INT8 量化 · INT4 量化 · FP16 量化 · 1-bit 量化

模型量化（Quantization）是将神经网络的权重和激活值从高精度（FP32 / FP16）映射到低精度（INT8 / INT4 / 1-bit）的过程，目的是减少模型大小、降低显存占用、提升推理速度。

模型量化 CONCEPT · 概念

首次提出: 2016
关键参与方: [[NVIDIA]] · [[Hugging Face]] · [[Qualcomm]]
反向引用: 12 处 · 来自 10 页

归属模型压缩推理优化LLM第四层

模型量化

通过降低神经网络权重和激活值的数值精度（FP32 → FP16 → INT8 → INT4 → 1-bit），在保持模型精度的前提下大幅缩减模型体积和计算需求。

定义

模型量化（Quantization）是将神经网络的权重和激活值从高精度（FP32 / FP16）映射到低精度（INT8 / INT4 / 1-bit）的过程，目的是减少模型大小、降低显存占用、提升推理速度。

主要方案

方案	提出方	精度	特点
GPTQ	学术界	INT4 / INT3	后训练量化，逐层补偿误差
AWQ	MIT-IBM	INT4	激活感知，保留重要权重精度
GGUF	llama.cpp 团队	INT4-INT8	端侧推理标准格式
OneBit	清华+哈工大	1-bit	极限压缩，>90% 压缩比
BitsAndBytes	Tim Dettmers	INT8/INT4	PyTorch 友好
FP8	NVIDIA	FP8	H100/H200 硬件加速

在 AI 产业链中的角色

推理成本下降的核心技术驱动力：2024-25 主流大模型推理成本下降 90% 中量化贡献约 1/3
端侧 AI 部署的前提：INT4 / GGUF 让 7B 模型可在端侧手机/PC 上运行
2024-25 演进至 1-bit 极限：清华 + 哈工大 OneBit 框架首次实现大模型权重压缩超过 90% 并保留 83% 的能力
DeepSeek-R1 "注意力门控"机制：仅 20% 权重活跃，推理速度提升 3 倍

主要玩家

学术界：MIT、清华、哈工大、IST、华盛顿大学
工业界：NVIDIA / Hugging Face Optimum / Qualcomm / llama.cpp 社区
中国玩家：硅基流动 / 商汤科技 / 摩尔线程 / 华为昇腾团队

演进历史

2016-2018 INT8 量化在 CV 模型普及
2022-09 GPTQ 论文发布
2023-06 AWQ 论文发布
2023-08 GGUF 格式确立
2024-02 OneBit 1-bit 量化
2025-01 DeepSeek-R1 注意力门控机制

相关概念

GPTQ
AWQ
GGUF
OneBit
模型剪枝
知识蒸馏
FlashAttention
PagedAttention

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 12

按引用量 ↓

… - **硬件基础**：依赖端侧 NPU 算力突破（如 [[Qualcomm]] 骁龙旗舰平台、[[Apple]] Neural Engine）+ 模型轻量化（模型量化 / 知识蒸馏 / 小模型）。 - **与云端分层**：通常不是纯端侧，而是 [[云-边-端协同]]——小模型在端、中模型在边、大模型在云，必要时端侧调用云端兜底（如 [[Apple]] 的 [[Private Cloud Compute] …

… AI agent，与其一贯的端侧优先战略一致（[据](../来源摘要/苹果再次尝试端侧运行AI而非云端（端侧agent讨论）.md.md)）。 ## 相关概念 - [[云-边-端协同]] - [[边缘 AI]] - 模型量化∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… 、量化**等技术，将 [[RAG]] 系统**部署到边缘设备**（手机 / 智能音箱 / AR 眼镜 / 智能车机）。5-07 报告将此列为 AI 搜索三大未来趋势之一。 ## 技术路径 | 技术 | 目的 | |---|---| | 模型量化 | INT4 / INT8 减少模型显存占用 | | 知识蒸馏 | 大模型能力转移到小模型 | | Sparse Activation | 仅激活相关参数 | …

… - **隐私优势** — 配合 [[秘塔AI搜索]] 等隐私优先产品的差异化 - **响应速度** — 本地推理延迟更低 - **离线可用** — 弱网/无网环境保持基础搜索能力 ## 关联 - 基础技术：[[RAG]] / 模型量化 / [[边缘 AI]] - 跨子行业：第四层 [[4-04-模型部署与优化]] / 第五层 5-07 - 关键玩家：[[NVIDIA]] Jetson / Apple Intelligence / [[华为]] 盘古 …

查看原文 →

… - [[腾讯云]] TI 平台 — 混元 + 高性能 HCC 推理 ### 独立未上市 - [[Hugging Face]] — 国际，但与中国生态深度互通 ## 核心技术维度 1. **模型量化与压缩**：INT4 量化 / [[GPTQ]] / [[AWQ]] / [[GGUF]] / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Ba …

查看原文 →

… - **Llama 系列默认推荐量化方案**：MetaAI 在文档中推荐 AWQ - **端侧部署友好**：在端侧硬件上比 GPTQ 速度更快 ## 相关概念 - 模型量化- [[GPTQ]] - [[GGUF]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **2023-08** GGUF 格式取代 GGML，向前兼容 - **2024** 成为端侧 LLM 部署事实标准 - **2025** 持续扩展支持新模型架构（MoE / 多模态） ## 相关概念 - 模型量化- [[GPTQ]] - [[AWQ]] - [[llama.cpp]] - [[端侧AI]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **开源社区标配**：Hugging Face 上数千个 GPTQ 量化版本模型可用 - **2024-25 推理成本下降的核心技术驱动力之一** ## 相关概念 - 模型量化- [[AWQ]] - [[GGUF]] - [[OneBit]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… llama、LM Studio、Jan 等大量端侧 LLM 工具，是端侧 AI 部署的核心基础设施作者。**没有 llama.cpp 就没有端侧大模型的普及**。 ## 关联实体 - [[llama.cpp]] - [[GGUF]] - 模型量化- [[端侧AI]] …

查看原文 →

… - [[NVIDIA Triton Inference Server]] - [[vLLM]] - [[PagedAttention]] - [[CUDA 生态]] - 模型量化⚔ competitor:: [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **2024** 支持多模态（LLaVA、Qwen-VL） - **2025** 持续扩展 MoE / DeepSeek 等新架构 ## 相关概念 - [[GGUF]] - 模型量化- [[端侧AI]] - [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] ## 已废弃叙述 <details> <summary>2026-05-29 事实订正：许可证 Apache 2.0 → MIT …

查看原文 →

… **催生端侧 AI 部署需求**：推动 [[中科创达]] / [[Qualcomm]] / [[联发科]] / 高端手机 OEM 等环节估值重估 ## 相关概念 - [[端侧AI]] - [[边缘 AI]] - [[知识蒸馏]] - 模型量化- [[轻量化模型]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →