以存代算(Storage-for-Compute)
用大容量、低成本存储替代部分计算开销 — AI 推理时代典型架构思路,把可重复使用的中间结果(KV-cache / 嵌入向量 / 预热模型)存到 QLC NAND 企业级SSD,而非每次重算(据3-05)。
是什么
- 传统模式:每次推理重新计算所有 attention / KV-cache
- 以存代算:把已计算的 KV-cache / 嵌入向量 / 中间表示持久化到 SSD,下次请求复用
- 核心介质:QLC NAND 大容量 PCIe 5.0 SSD(单盘 100 TB+)
- 核心收益:单次推理成本下降 20-50%(视场景)
关键场景
- 大模型推理 KV-cache 持久化 — Llama 70B+ / DeepSeek 多轮对话场景
- RAG 嵌入向量库 — 大规模 RAG 系统的 vector store
- Prefix-cache 复用 — 多用户共享系统提示词的中间状态
- 模型权重多版本管理 — 不同 finetune 版本快速切换
关键技术支撑
- QLC NAND:单盘 32-128 TB,单 TB 成本极低
- PCIe 5.0 SSD:顺序读写 14 GB/s,满足 KV-cache 加载
- NVMe + GPUDirect Storage:GPU 直接读 SSD 跳过 CPU
- CXL 持久内存:未来介于 DRAM 与 SSD 之间的层
主要参与者
- 介质:大普微 122 TB QLC eSSD / Solidigm / 长江存储
- 应用方:OpenAI / Meta / 字节跳动 / 阿里巴巴 等大模型推理场景
- 协同:NVIDIA GPUDirect / DLM(Disaggregated Memory)
关键趋势
- 2025-26 应用爆发 — KV-cache 持久化方案成熟
- 驱动 QLC 大容量 SSD 需求 — 拉动 QLC NAND 产能扩张
- 分层存储重新定义 — DRAM → CXL Memory → QLC SSD → HDD/Object Storage
↑ up::QLC NAND PCIe 5.0 SSD CXL ↓ down::3-01-云计算与智算平台 4-04-模型部署优化 ∈ belongs_to::3-05-AI存储系统