GGUF
llama.cpp 团队定义的端侧 LLM 推理标准格式;前身为 GGML;支持多种量化精度(Q2/Q3/Q4/Q5/Q6/Q8)。
定义
GGUF(GPT-Generated Unified Format)是 llama.cpp 团队 2023 年发布的二进制模型文件格式,将模型权重、tokenizer、配置参数打包为单一文件,支持多种量化精度,是端侧 LLM 推理的事实标准格式。
主要量化精度
| 格式 | 精度 | 模型大小 | 适用场景 |
|---|---|---|---|
| Q2_K | ~2.5 bit | 最小 | 极限端侧 |
| Q3_K_M | ~3.5 bit | 小 | 移动端 |
| Q4_K_M | ~4.5 bit | 平衡 | 推荐默认 |
| Q5_K_M | ~5.5 bit | 较大 | 高质量端侧 |
| Q6_K | ~6.5 bit | 大 | 接近 FP16 |
| Q8_0 | 8 bit | 接近原模型 | 服务端 |
| FP16 | 16 bit | 原模型 | 训练 |
主要玩家
- 开发者:Georgi Gerganov(llama.cpp 创始人)
- 工具链:llama.cpp / koboldcpp / Ollama / LM Studio / Jan / Hugging Face
- 推理引擎:llama.cpp 原生 + 各种封装
在 AI 产业链中的角色
- 端侧 LLM 部署事实标准:CPU、消费级 GPU、Apple Silicon 上跑 LLM 的首选格式
- 开源社区分享标准:Hugging Face 上有数万个 GGUF 量化版本模型
- 跨平台通用:Linux / Mac / Windows / iOS / Android 全平台覆盖
- 个人 AI 普及的关键格式:Ollama 等本地 LLM 工具的核心
演进历史
- 2022-09 GGML 格式发布(前身)
- 2023-08 GGUF 格式取代 GGML,向前兼容
- 2024 成为端侧 LLM 部署事实标准
- 2025 持续扩展支持新模型架构(MoE / 多模态)
相关概念
∈ belongs_to::4-04-模型部署与优化