AI产业链地图·知识库 语义缓存 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/语义缓存
更新 2026·06·17
概念 技术 / 术语

语义缓存

Semantic Caching · Semantic Cache · LLM 语义缓存

prompt 1: "怎么用 React 写一个 todo list" prompt 2: "教我用 React 做待办清单"

语义缓存 CONCEPT · 概念
首次提出
2023
关键参与方
[[Fastly]] · [[Cloudflare]] · [[Redis]] · [[Pinecone]]
反向引用
20 处 · 来自 7
归属 语义缓存AI推理边缘AI第三层Fastly

语义缓存(Semantic Caching)

定义

语义缓存是为 LLM 推理设计的一种新缓存机制 — 不再做"URL/参数精确匹配",而是把用户 prompt 转成 embedding 向量,与缓存库中已有 prompt 的向量做相似度匹配,若超过阈值(通常 0.95)则直接返回缓存中的回答,避免重复调用昂贵的 LLM。

例:

prompt 1: "怎么用 React 写一个 todo list"
prompt 2: "教我用 React 做待办清单"
# 两者语义相似度 0.97 → 直接命中缓存

工作机制

用户请求 →
1. Prompt → Embedding(用小模型,如 BGE/E5/text-embedding-3)
2. 向量数据库相似度查询(kNN)
3. Top-1 相似度 > 阈值 ?
   ├─ 是 → 返回缓存答案(毫秒级,零 GPU 成本)
   └─ 否 → 转发到 LLM → 缓存新 Q&A pair

关键玩家

商业产品

  • Fastly AI Accelerator — 边缘语义缓存,Fastly 的核心高利润率 AI 技术
  • Cloudflare AI Gateway — 集成 Vectorize 做语义缓存
  • Portkey / Helicone — 第三方 AI Gateway 自带语义缓存

开源

  • GPTCache(Zilliz 出品)— 业界最早开源语义缓存框架
  • LangChain LLM Cache — 集成 Redis / Pinecone / Milvus

商业价值

  1. Token 成本降低 20-50% — 高频重复 prompt 场景
  2. 延迟从 1,500ms 降至 50ms — 用户体验跃升
  3. 不增加 GPU 投入 — 边缘 CPU + 向量数据库即可
  4. Fastly 高利润率引擎 — Fastly 2025 首次全年非 GAAP 盈利 $1,970 万,语义缓存是核心技术

适用场景

场景 重复率 节省潜力
客服机器人 70-90% ★★★★★
文档问答(RAG) 40-60% ★★★★
代码助手 30-50% ★★★
创意写作 <10% ★(不适合)
Agent 工具调用 30-50% ★★★

技术挑战

  1. 相似度阈值难调 — 太松命中错误答案、太严缓存命中率低
  2. 多轮对话不易缓存 — 上下文敏感
  3. 个性化场景失效 — 用户身份相关请求不应缓存
  4. embedding 模型也需算力 — 但比 LLM 便宜 100-1,000 倍

行业趋势

  1. AI Gateway 标配 — 不带语义缓存的 AI Gateway 已无竞争力
  2. 从单 LLM 到 LLM Stack 全栈缓存 — Tool 调用、Agent 步骤都可缓存
  3. CDN 厂商抢占边缘语义缓存高地 — Fastly / Cloudflare 首发优势

关联

↑ up::AI Gateway 边缘 AI ↓ down::OpenAI Anthropic ∈ belongs_to::3-04-边缘节点-网络分发基础设施