vLLM
UC Berkeley 团队主导的开源 LLM 推理引擎;首创 PagedAttention 技术,GitHub 45,000+ Star,已成为开源 LLM 推理引擎的事实标准。
关键数据
| 维度 | 数据 | 时间 |
|---|---|---|
| GitHub Star | 45,000+ | 2025 末 |
| 起源团队 | UC Berkeley SkyLab(Ion Stoica 等) | — |
| 治理归属 | PyTorch Foundation 托管项目(中立治理),多机构 consortium 维护(UC Berkeley / Anyscale / AWS / Databricks / IBM / Red Hat / Neural Magic / Snowflake 等) | 2025 |
| 许可 | Apache 2.0 | — |
| 主要采用者 | 硅基流动 / 火山引擎 / Together AI / Anyscale | — |
核心技术
- PagedAttention:将操作系统的虚拟内存分页思想引入 KV-Cache 管理,解决 LLM 推理中显存碎片化与浪费的核心痛点
- Continuous Batching:动态批处理,请求级别拼批,吞吐量较静态批处理 +10-20×
- Tensor Parallelism:原生支持多 GPU 张量并行
- 量化支持:GPTQ / AWQ / GGUF / FP8 多种量化格式
- 投机解码 支持
- 多硬件后端:NVIDIA GPU / AMD MI 系列 / 华为 昇腾 / Intel Gaudi / TPU
商业化
vLLM 团队已组建 vLLM Inc.(由 Anyscale 孵化)进行商业化探索,但目前仍以开源社区发展为主。商业模式探索方向:托管推理云、企业级支持、行业定制版。
在 4-04 中的角色
- 三大推理引擎技术路线之一:与 NVIDIA TensorRT-LLM(硬件厂商配套)、硅基流动 自研构成三足鼎立
- 降低推理成本的核心引擎:PagedAttention + Continuous Batching 是 2024-25 推理成本暴降 90% 的主要技术驱动力之一
- 被云厂商和独立推理服务商广泛采用:开源社区贡献者覆盖几乎所有主流推理服务平台
技术影响
- DeepSeek-R1 等开源大模型部署的默认推理引擎
- 推动 Continuous Batching / 投机解码 / FlashAttention 等技术进入工业级实践
- 反向影响 NVIDIA TensorRT-LLM 的开发优先级
与 AI 产业链关系
↑ up::NVIDIA AMD 华为 — 后端 GPU/NPU 硬件 ⚔ competitor::NVIDIA TensorRT-LLM SGLang DeepSpeed ↓ down::Anyscale 硅基流动 火山引擎 — 推理服务平台底层 ∈ belongs_to::4-04-模型部署与优化
资本运作
- 开源项目本身无估值
- vLLM Inc. 由 Anyscale(Ion Stoica 创立)孵化运营
- 长期商业化路径与 MLflow / Apache Spark / Databricks 模式相似
增量补充(2026-05-29)
治理结构更新(编辑核查):vLLM 于 2025 年正式成为 PyTorch Foundation 托管项目(foundation-hosted project),采用基金会中立治理模型,由多机构 consortium 共同维护(UC Berkeley / Anyscale / AWS / CentML / Databricks / IBM / Neural Magic / Roblox / Snowflake 等)。Red Hat 于 2025-05 联合 Google Cloud / IBM Research / NVIDIA / CoreWeave 推出 llm-d(Kubernetes 原生分布式推理栈,构建在 vLLM 之上),将 vLLM 推向企业级。原页面"商业化主体 vLLM Inc. / 由 Anyscale 孵化"的表述已不准确——vLLM 当前以 PyTorch Foundation 中立治理 + 多机构社区维护为核心,而非单一 vLLM Inc. 主体。(据 PyTorch Foundation 2025 公告、Red Hat Developer 2025-10)
已废弃叙述
2026-05-29 治理订正:关键数据表"商业化主体 vLLM Inc. / Anyscale"行 → "PyTorch Foundation 托管 + 多机构 consortium";依据 T1 PyTorch Foundation 官方公告
原关键数据表行:商业化主体 | vLLM Inc. / Anyscale
订正依据:2025 年 vLLM 转为 PyTorch Foundation 托管项目,中立治理;正文"商业化"段保留原叙述未重写,治理事实更新见上方增量补充。