AI产业链地图·知识库 GGUF · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
更新 2026·06·17
概念 技术 / 术语

GGUF

GGUF 格式 · GGML

GGUF(GPT-Generated Unified Format)是 llama.cpp 团队 2023 年发布的二进制模型文件格式,将模型权重、tokenizer、配置参数打包为单一文件,支持多种量化精度,是端侧 LLM 推理的事实标准格式。

GGUF CONCEPT · 概念
首次提出
2023
关键参与方
[[llama.cpp]] · [[Hugging Face]]
反向引用
20 处 · 来自 9
归属 量化端侧llama.cpp第四层

GGUF

llama.cpp 团队定义的端侧 LLM 推理标准格式;前身为 GGML;支持多种量化精度(Q2/Q3/Q4/Q5/Q6/Q8)。

定义

GGUF(GPT-Generated Unified Format)是 llama.cpp 团队 2023 年发布的二进制模型文件格式,将模型权重、tokenizer、配置参数打包为单一文件,支持多种量化精度,是端侧 LLM 推理的事实标准格式。

主要量化精度

格式 精度 模型大小 适用场景
Q2_K ~2.5 bit 最小 极限端侧
Q3_K_M ~3.5 bit 移动端
Q4_K_M ~4.5 bit 平衡 推荐默认
Q5_K_M ~5.5 bit 较大 高质量端侧
Q6_K ~6.5 bit 接近 FP16
Q8_0 8 bit 接近原模型 服务端
FP16 16 bit 原模型 训练

主要玩家

  • 开发者:Georgi Gerganov(llama.cpp 创始人)
  • 工具链:llama.cpp / koboldcpp / Ollama / LM Studio / Jan / Hugging Face
  • 推理引擎:llama.cpp 原生 + 各种封装

在 AI 产业链中的角色

  • 端侧 LLM 部署事实标准:CPU、消费级 GPU、Apple Silicon 上跑 LLM 的首选格式
  • 开源社区分享标准Hugging Face 上有数万个 GGUF 量化版本模型
  • 跨平台通用:Linux / Mac / Windows / iOS / Android 全平台覆盖
  • 个人 AI 普及的关键格式:Ollama 等本地 LLM 工具的核心

演进历史

  • 2022-09 GGML 格式发布(前身)
  • 2023-08 GGUF 格式取代 GGML,向前兼容
  • 2024 成为端侧 LLM 部署事实标准
  • 2025 持续扩展支持新模型架构(MoE / 多模态)

相关概念

∈ belongs_to::4-04-模型部署与优化