AI产业链地图·知识库 GGUF · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/GGUF

更新 2026·06·17

概念技术 / 术语

GGUF

GGUF 格式 · GGML

GGUF（GPT-Generated Unified Format）是 llama.cpp 团队 2023 年发布的二进制模型文件格式，将模型权重、tokenizer、配置参数打包为单一文件，支持多种量化精度，是端侧 LLM 推理的事实标准格式。

GGUF CONCEPT · 概念

首次提出: 2023
关键参与方: [[llama.cpp]] · [[Hugging Face]]
反向引用: 20 处 · 来自 9 页

归属量化端侧llama.cpp第四层

GGUF

llama.cpp 团队定义的端侧 LLM 推理标准格式；前身为 GGML；支持多种量化精度（Q2/Q3/Q4/Q5/Q6/Q8）。

定义

GGUF（GPT-Generated Unified Format）是 llama.cpp 团队 2023 年发布的二进制模型文件格式，将模型权重、tokenizer、配置参数打包为单一文件，支持多种量化精度，是端侧 LLM 推理的事实标准格式。

主要量化精度

格式	精度	模型大小	适用场景
Q2_K	~2.5 bit	最小	极限端侧
Q3_K_M	~3.5 bit	小	移动端
Q4_K_M	~4.5 bit	平衡	推荐默认
Q5_K_M	~5.5 bit	较大	高质量端侧
Q6_K	~6.5 bit	大	接近 FP16
Q8_0	8 bit	接近原模型	服务端
FP16	16 bit	原模型	训练

主要玩家

开发者：Georgi Gerganov（llama.cpp 创始人）
工具链：llama.cpp / koboldcpp / Ollama / LM Studio / Jan / Hugging Face
推理引擎：llama.cpp 原生 + 各种封装

在 AI 产业链中的角色

端侧 LLM 部署事实标准：CPU、消费级 GPU、Apple Silicon 上跑 LLM 的首选格式
开源社区分享标准：Hugging Face 上有数万个 GGUF 量化版本模型
跨平台通用：Linux / Mac / Windows / iOS / Android 全平台覆盖
个人 AI 普及的关键格式：Ollama 等本地 LLM 工具的核心

演进历史

2022-09 GGML 格式发布（前身）
2023-08 GGUF 格式取代 GGML，向前兼容
2024 成为端侧 LLM 部署事实标准
2025 持续扩展支持新模型架构（MoE / 多模态）

相关概念

∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 20

按引用量 ↓

… > **本地大模型运行工具，开发者一键下载和运行开源模型，无需云端依赖；仅融资 $12.5 万种子轮，"AI 领域最精益的成功案例之一"。** ## 一句话定位 Ollama 是面向开发者和研究者的本地 LLM 运行时，封装 GGUF 量化 + [[llama.cpp]] 推理引擎 + 简洁 CLI，让用户在 MacBook / Windows / Linux 个人电脑上一键运行 LLaMA / Mistral / Qwen / DeepSeek 等开源模型。 …

… - **Ollama CLI / 桌面应用**：一行命令运行任意模型 `ollama run llama3.2` - **Ollama Library**：本地模型仓库（基于 GGUF 格式） - **Ollama API**：本地 REST API，兼容 OpenAI API 协议 ## 技术亮点 / 护城河 - **极简体验**：一键安装 + 一行运行，开发者上手时间 < 5 分钟 …

… - **OpenAI API 兼容**：现有 SDK 代码零改动可切换到本地 - **社区驱动**：模型库依靠社区维护，[[Hugging Face]] 模型转 GGUF 路径成熟 ## AI 时代角色 Ollama 是本地推理领域的标杆产品，代表"AI 民主化"理念。在 [[隐私保护]] / [[离线场景]] / [[开发原型]] 等场景，与 [[Hugging Face]] Transformers …

… 还有 2 处提及

查看原文 →

… # Georgi Gerganov > [[llama.cpp]] 创始人；端侧 LLM 推理生态**事实标准的奠基人**；GGUF 格式发明者。 ## 基本信息 | 维度 | 内容 | |---|---| | 国籍 | 保加利亚 | | 教育 | 索菲亚大学物理 + 计算机科学 | | 现任 | [[llama.cpp]] 创始人 & 核心维护者 | …

… - **2022-09** 发布 GGML 张量库（C 语言实现的轻量级深度学习库） - **2023-03** 发布 [[llama.cpp]]，让 LLaMA 模型可在 MacBook CPU 上跑 - **2023-08** 发布 GGUF 格式 - **2024** llama.cpp 成为端侧 LLM 部署事实标准 - **2025** 持续维护，扩展支持多模态、MoE、新硬件后端 ## 关键决策 / 成就 …

… cpp 间接催生了 Ollama、LM Studio、Jan 等大量端侧 LLM 工具，是端侧 AI 部署的核心基础设施作者。**没有 llama.cpp 就没有端侧大模型的普及**。 ## 关联实体 - [[llama.cpp]] - GGUF- [[模型量化]] - [[端侧AI]] …

查看原文 →

… - [[FastGPT]] ★★★★（知识库 + RAG + Agent 一体化，私有化部署） ## 核心技术维度 1. **模型托管与分发**：[[Model Card]] / [[模型评测]] / GGUF / [[ONNX]] / [[SafeTensors]] / 分布式模型缓存 2. **推理优化**：[[量化]]（GPTQ / AWQ / [[GGUF]]）/ [[推测性解码]] / [[KV 缓存]] / [[Flash Atten …

… **模型托管与分发**：[[Model Card]] / [[模型评测]] / [[GGUF]] / [[ONNX]] / [[SafeTensors]] / 分布式模型缓存 2. **推理优化**：[[量化]]（GPTQ / AWQ / GGUF）/ [[推测性解码]] / [[KV 缓存]] / [[Flash Attention]] / [[连续批处理]] 3. **RAG 技术栈**：[[向量数据库]] / [[Chunking]] / [[混合检索]] / [[Rerank …

查看原文 →

… - 推理引擎：[[vLLM]] / [[NVIDIA TensorRT-LLM]] / llama.cpp 原生支持 ## 在 AI 产业链中的角色 - **大模型量化事实标准之一**：与 [[GPTQ]]、GGUF 并列三大主流方案 - **Llama 系列默认推荐量化方案**：MetaAI 在文档中推荐 AWQ - **端侧部署友好**：在端侧硬件上比 GPTQ 速度更快 …

… - **Llama 系列默认推荐量化方案**：MetaAI 在文档中推荐 AWQ - **端侧部署友好**：在端侧硬件上比 GPTQ 速度更快 ## 相关概念 - [[模型量化]] - [[GPTQ]] - GGUF∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - 推理引擎：[[vLLM]] / [[NVIDIA TensorRT-LLM]] / llama.cpp 原生支持 ## 在 AI 产业链中的角色 - **大模型量化事实标准之一**：与 [[AWQ]]、GGUF 并列三大主流方案 - **开源社区标配**：Hugging Face 上数千个 GPTQ 量化版本模型可用 - **2024-25 推理成本下降的核心技术驱动力之一** …

… - **开源社区标配**：Hugging Face 上数千个 GPTQ 量化版本模型可用 - **2024-25 推理成本下降的核心技术驱动力之一** ## 相关概念 - [[模型量化]] - [[AWQ]] - GGUF- [[OneBit]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - **多硬件支持**：CPU（x86/ARM）/ Metal（Apple Silicon）/ CUDA（NVIDIA）/ ROCm（AMD）/ SYCL（Intel）/ Vulkan（通用） - **GGUF 格式**：自研模型格式 - **量化支持**：Q2 ~ Q8 全谱 - **流式输出**：低延迟生成 - **服务模式**：HTTP server 支持 OpenAI API 兼容 …

… - **2024** 支持多模态（LLaVA、Qwen-VL） - **2025** 持续扩展 MoE / DeepSeek 等新架构 ## 相关概念 - GGUF- [[模型量化]] - [[端侧AI]] - [[vLLM]] ∈ belongs_to::[[4-04-模型部署与优化]] ## 已废弃叙述 <details> …

查看原文 →

… | [[GPTQ]] | 学术界 | INT4 / INT3 | 后训练量化，逐层补偿误差 | | [[AWQ]] | MIT-IBM | INT4 | 激活感知，保留重要权重精度 | | GGUF | llama.cpp 团队 | INT4-INT8 | 端侧推理标准格式 | | [[OneBit]] | 清华+哈工大 | 1-bit | 极限压缩，>90% 压缩比 | …

… - **2024-02** OneBit 1-bit 量化 - **2025-01** DeepSeek-R1 注意力门控机制 ## 相关概念 - [[GPTQ]] - [[AWQ]] - GGUF- [[OneBit]] - [[模型剪枝]] - [[知识蒸馏]] - [[FlashAttention]] - [[PagedAttention]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… - [[Hugging Face]] — 国际，但与中国生态深度互通 ## 核心技术维度 1. **模型量化与压缩**：[[INT4 量化]] / [[GPTQ]] / [[AWQ]] / GGUF / [[OneBit]] / [[知识蒸馏]] / [[模型剪枝]] 2. **推理引擎核心算法**：[[PagedAttention]] / [[Continuous Batching]] / [[投机解码]] / [[FlashAtt …

查看原文 →

… ous Batching]]**：动态批处理，请求级别拼批，吞吐量较静态批处理 +10-20× - **Tensor Parallelism**：原生支持多 GPU 张量并行 - **量化支持**：[[GPTQ]] / [[AWQ]] / GGUF / FP8 多种量化格式 - **[[投机解码]]** 支持 - 多硬件后端：[[NVIDIA]] GPU / [[AMD]] MI 系列 / [[华为]] 昇腾 / [[Intel]] Gaudi / TPU …

查看原文 →