语义缓存(Semantic Caching)
定义
语义缓存是为 LLM 推理设计的一种新缓存机制 — 不再做"URL/参数精确匹配",而是把用户 prompt 转成 embedding 向量,与缓存库中已有 prompt 的向量做相似度匹配,若超过阈值(通常 0.95)则直接返回缓存中的回答,避免重复调用昂贵的 LLM。
例:
prompt 1: "怎么用 React 写一个 todo list"
prompt 2: "教我用 React 做待办清单"
# 两者语义相似度 0.97 → 直接命中缓存
工作机制
用户请求 →
1. Prompt → Embedding(用小模型,如 BGE/E5/text-embedding-3)
2. 向量数据库相似度查询(kNN)
3. Top-1 相似度 > 阈值 ?
├─ 是 → 返回缓存答案(毫秒级,零 GPU 成本)
└─ 否 → 转发到 LLM → 缓存新 Q&A pair
关键玩家
商业产品
- Fastly AI Accelerator — 边缘语义缓存,Fastly 的核心高利润率 AI 技术
- Cloudflare AI Gateway — 集成 Vectorize 做语义缓存
- Portkey / Helicone — 第三方 AI Gateway 自带语义缓存
开源
- GPTCache(Zilliz 出品)— 业界最早开源语义缓存框架
- LangChain LLM Cache — 集成 Redis / Pinecone / Milvus
商业价值
- Token 成本降低 20-50% — 高频重复 prompt 场景
- 延迟从 1,500ms 降至 50ms — 用户体验跃升
- 不增加 GPU 投入 — 边缘 CPU + 向量数据库即可
- Fastly 高利润率引擎 — Fastly 2025 首次全年非 GAAP 盈利 $1,970 万,语义缓存是核心技术
适用场景
| 场景 | 重复率 | 节省潜力 |
|---|---|---|
| 客服机器人 | 70-90% | ★★★★★ |
| 文档问答(RAG) | 40-60% | ★★★★ |
| 代码助手 | 30-50% | ★★★ |
| 创意写作 | <10% | ★(不适合) |
| Agent 工具调用 | 30-50% | ★★★ |
技术挑战
- 相似度阈值难调 — 太松命中错误答案、太严缓存命中率低
- 多轮对话不易缓存 — 上下文敏感
- 个性化场景失效 — 用户身份相关请求不应缓存
- embedding 模型也需算力 — 但比 LLM 便宜 100-1,000 倍
行业趋势
- AI Gateway 标配 — 不带语义缓存的 AI Gateway 已无竞争力
- 从单 LLM 到 LLM Stack 全栈缓存 — Tool 调用、Agent 步骤都可缓存
- CDN 厂商抢占边缘语义缓存高地 — Fastly / Cloudflare 首发优势
关联
↑ up::AI Gateway 边缘 AI ↓ down::OpenAI Anthropic ∈ belongs_to::3-04-边缘节点-网络分发基础设施