轻量化 RAG
通过模型压缩、知识蒸馏、量化等技术,将 RAG 系统部署到边缘设备(手机 / 智能音箱 / AR 眼镜 / 智能车机)。5-07 报告将此列为 AI 搜索三大未来趋势之一。
技术路径
| 技术 | 目的 |
|---|---|
| 模型量化 | INT4 / INT8 减少模型显存占用 |
| 知识蒸馏 | 大模型能力转移到小模型 |
| Sparse Activation | 仅激活相关参数 |
| 检索器轻量化 | 小型 嵌入向量 模型 + 本地向量库 |
| Cache / KV-Cache 优化 | KV-Cache 复用 |
应用场景
- 手机端 AI 助手 — Apple Intelligence / 小米 / 华为 HarmonyOS
- 智能音箱 / 智能车机 — 离线语音问答
- AR / VR 眼镜 — Vision Pro / Quest 等
- 隐私敏感场景 — 数据不出本地
战略意义(5-07 视角)
5-07 报告强调:
- AI 搜索从云端走向边缘 — 减少云端推理成本(3-30 美分/次)
- 隐私优势 — 配合 秘塔AI搜索 等隐私优先产品的差异化
- 响应速度 — 本地推理延迟更低
- 离线可用 — 弱网/无网环境保持基础搜索能力
关联
- 基础技术:RAG / 模型量化 / 边缘 AI
- 跨子行业:第四层 4-04-模型部署与优化 / 第五层 5-07
- 关键玩家:NVIDIA Jetson / Apple Intelligence / 华为 盘古