AI产业链地图·知识库 llama.cpp · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/llama.cpp

更新 2026·06·17

概念技术 / 术语

llama.cpp

LlamaCPP

llama.cpp 是用纯 C/C++ 实现的 LLM 推理引擎，最初为运行 Meta LLaMA 模型而创建，现已支持几乎所有主流开源 LLM 架构。核心优势是无 Python 依赖、跨平台、量化友好。

llama.cpp CONCEPT · 概念

首次提出: 2023
关键参与方: [[Georgi Gerganov]]
反向引用: 12 处 · 来自 6 页

归属开源推理引擎端侧第四层

llama.cpp

Georgi Gerganov 发起的开源项目，专注于在 CPU 和消费级 GPU 上高效运行量化后的 LLM 模型；端侧 LLM 部署事实标准工具之一。

定义

llama.cpp 是用纯 C/C++ 实现的 LLM 推理引擎，最初为运行 Meta LLaMA 模型而创建，现已支持几乎所有主流开源 LLM 架构。核心优势是无 Python 依赖、跨平台、量化友好。

核心特性

纯 C/C++ 实现：无 Python / PyTorch / CUDA 重依赖
跨平台：Linux / macOS / Windows / iOS / Android / Web (WASM)
多硬件支持：CPU（x86/ARM）/ Metal（Apple Silicon）/ CUDA（NVIDIA）/ ROCm（AMD）/ SYCL（Intel）/ Vulkan（通用）
GGUF 格式：自研模型格式
量化支持：Q2 ~ Q8 全谱
流式输出：低延迟生成
服务模式：HTTP server 支持 OpenAI API 兼容

主要玩家

维护者：Georgi Gerganov 个人 + 全球 1,000+ 贡献者
下游生态：Ollama / LM Studio / Jan / koboldcpp / GPT4All / text-generation-webui

在 AI 产业链中的角色

端侧 LLM 部署事实标准：在 CPU、Apple Silicon、消费级 GPU 上跑 LLM 的首选
个人 AI 普及的核心：让任何人都可以在自己电脑上跑 LLM
开源社区生命力典范：MIT 许可证 + 极活跃维护
GGUF 格式标准制定者：影响整个端侧推理生态

演进历史

2023-03 首发，初为运行 LLaMA 设计
2023-08 GGUF 格式发布
2024 支持多模态（LLaVA、Qwen-VL）
2025 持续扩展 MoE / DeepSeek 等新架构

相关概念

∈ belongs_to::4-04-模型部署与优化

已废弃叙述

2026-05-29 事实订正：许可证 Apache 2.0 → MIT（依据 T1 官方 GitHub LICENSE：github.com/ggml-org/llama.cpp/blob/master/LICENSE，项目采用 MIT 协议）

开源社区生命力典范：Apache 2.0 许可证 + 极活跃维护

反向引用链接到本页

反向引用 12

按引用量 ↓

… # Georgi Gerganov > llama.cpp 创始人；端侧 LLM 推理生态**事实标准的奠基人**；[[GGUF]] 格式发明者。 ## 基本信息 | 维度 | 内容 | |---|---| | 国籍 | 保加利亚 | …

… [[GGUF]] 格式发明者。 ## 基本信息 | 维度 | 内容 | |---|---| | 国籍 | 保加利亚 | | 教育 | 索菲亚大学物理 + 计算机科学 | | 现任 | llama.cpp 创始人 & 核心维护者 | | 个人风格 | 全职开源开发者，独立运营 | | 总部 | 索菲亚（远程） | ## 职业生涯 - **早期**：物理 + 计算机科学背景，从事消费电子和小型项目 …

… - **早期**：物理 + 计算机科学背景，从事消费电子和小型项目 - **2022-09** 发布 GGML 张量库（C 语言实现的轻量级深度学习库） - **2023-03** 发布 llama.cpp，让 LLaMA 模型可在 MacBook CPU 上跑 - **2023-08** 发布 [[GGUF]] 格式 - **2024** llama.cpp 成为端侧 LLM 部署事实标准 …

… 还有 1 处提及

查看原文 →

… # GGUF > llama.cpp 团队定义的**端侧 LLM 推理标准格式**；前身为 GGML；支持多种量化精度（Q2/Q3/Q4/Q5/Q6/Q8）。 ## 定义 GGUF（GPT-Generated Unified Format）是 [[llama.cpp]] …

… 前身为 GGML；支持多种量化精度（Q2/Q3/Q4/Q5/Q6/Q8）。 ## 定义 GGUF（GPT-Generated Unified Format）是 llama.cpp 团队 2023 年发布的二进制模型文件格式，将模型权重、tokenizer、配置参数打包为单一文件，支持多种量化精度，是端侧 LLM 推理的事实标准格式。 …

… - **2024** 成为端侧 LLM 部署事实标准 - **2025** 持续扩展支持新模型架构（MoE / 多模态） ## 相关概念 - [[模型量化]] - [[GPTQ]] - [[AWQ]] - llama.cpp- [[端侧AI]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… 仅融资 $12.5 万种子轮，"AI 领域最精益的成功案例之一"。** ## 一句话定位 Ollama 是面向开发者和研究者的本地 LLM 运行时，封装 [[GGUF]] 量化 + llama.cpp 推理引擎 + 简洁 CLI，让用户在 MacBook / Windows / Linux 个人电脑上一键运行 LLaMA / Mistral / Qwen / DeepSeek 等开源模型。 …

… 等场景，与 [[Hugging Face]] Transformers / [[vLLM]] 形成互补，是开发者社区使用率最高的本地工具之一。 ## 与 AI 产业链关系 ↑ up::[[Hugging Face]] [[GGUF]] llama.cpp↓ down::开发者工具 / 个人 AI 助手 / [[5-06-AI办公与企业服务]]（私有化场景） ⚔ competitor::[[LM Studio]] [[Jan]] …

查看原文 →

… iton Inference Server]] / [[vLLM]] / [[Ray]] / [[SGLang]] / [[DeepSpeed]] 4. **端侧部署**：[[ONNX Runtime]] / [[OpenVINO]] / llama.cpp / [[云-边-端协同]] 5. **MLOps 全生命周期**：实验追踪 / 模型注册 / 特征存储 / 模型监控 / [[LLMOps]] / [[数据漂移]] …

查看原文 →

… - **Inference Endpoints**：托管推理服务（MaaS 形式），欧美企业一键部署模型的快捷路径。 - **生态枢纽**：[[vLLM]] / llama.cpp / [[NVIDIA TensorRT-LLM]] 等推理引擎几乎都以 HF Hub 为模型源；推理引擎的兴起反向放大了 HF 作为模型分发中央节点的网络效应。 …

查看原文 →

… - **与 [[Qwen]] / [[DeepSeek]] 形成"东西双雄"格局** — 开源模型全球份额合计 ~30%（2025 中） - **推理生态锚定作用**：llama.cpp / [[vLLM]] / [[TensorRT-LLM]] 都把 Llama 当基准 ### 配套产品 - **Code Llama** — 代码大模型 …

查看原文 →