llama.cpp
Georgi Gerganov 发起的开源项目,专注于在 CPU 和消费级 GPU 上高效运行量化后的 LLM 模型;端侧 LLM 部署事实标准工具之一。
定义
llama.cpp 是用纯 C/C++ 实现的 LLM 推理引擎,最初为运行 Meta LLaMA 模型而创建,现已支持几乎所有主流开源 LLM 架构。核心优势是无 Python 依赖、跨平台、量化友好。
核心特性
- 纯 C/C++ 实现:无 Python / PyTorch / CUDA 重依赖
- 跨平台:Linux / macOS / Windows / iOS / Android / Web (WASM)
- 多硬件支持:CPU(x86/ARM)/ Metal(Apple Silicon)/ CUDA(NVIDIA)/ ROCm(AMD)/ SYCL(Intel)/ Vulkan(通用)
- GGUF 格式:自研模型格式
- 量化支持:Q2 ~ Q8 全谱
- 流式输出:低延迟生成
- 服务模式:HTTP server 支持 OpenAI API 兼容
主要玩家
- 维护者:Georgi Gerganov 个人 + 全球 1,000+ 贡献者
- 下游生态:Ollama / LM Studio / Jan / koboldcpp / GPT4All / text-generation-webui
在 AI 产业链中的角色
- 端侧 LLM 部署事实标准:在 CPU、Apple Silicon、消费级 GPU 上跑 LLM 的首选
- 个人 AI 普及的核心:让任何人都可以在自己电脑上跑 LLM
- 开源社区生命力典范:MIT 许可证 + 极活跃维护
- GGUF 格式标准制定者:影响整个端侧推理生态
演进历史
- 2023-03 首发,初为运行 LLaMA 设计
- 2023-08 GGUF 格式发布
- 2024 支持多模态(LLaVA、Qwen-VL)
- 2025 持续扩展 MoE / DeepSeek 等新架构
相关概念
∈ belongs_to::4-04-模型部署与优化
已废弃叙述
2026-05-29 事实订正:许可证 Apache 2.0 → MIT(依据 T1 官方 GitHub LICENSE:github.com/ggml-org/llama.cpp/blob/master/LICENSE,项目采用 MIT 协议)
- 开源社区生命力典范:Apache 2.0 许可证 + 极活跃维护