多模态向量(Multimodal Embedding)
把 文本 / 图像 / 音频 / 视频 / 代码 统一编码到同一个向量空间 — 让"用文字搜图片"、"用图片搜视频"成为单次向量检索,是下一代 RAG 与电商/媒体搜索的核心基础。
定义
多模态向量是指用同一个模型把多种模态(文本、图像、音频等)映射到共享向量空间,使得不同模态的语义相似项在空间中距离接近。例如文本 "一只奔跑的金毛犬" 与一张金毛奔跑图片,向量距离应显著小于无关图片。
核心模型
| 模型 | 出品方 | 模态 |
|---|---|---|
| CLIP | OpenAI(2021) | 文 + 图 |
| SigLIP | 文 + 图 | |
| AudioCLIP / CLAP | 学术 | 文 + 音 |
| ImageBind | Meta | 6 模态(文/图/音/深度/热成像/IMU) |
| Jina CLIP | Jina AI | 文 + 图(多语言) |
| BGE-VL | 智源 | 文 + 图(中英) |
| Cohere Embed Multimodal | Cohere | 文 + 图 |
| Voyage Multimodal | Voyage AI | 文 + 图(PDF 友好) |
关键应用
- 电商搜索:拍照搜款(Amazon / 阿里、Pinterest)
- 媒体检索:跨模态视频/图片库搜索
- 多模态 RAG:用户问问题 → 同时检索文档+图表+流程图
- 设计 / 资产管理:用文字描述找设计稿、素材
- 医疗影像:用主诉文字检索相似 CT/X 光
- 机器人:把视觉、语音、文本指令统一表示
工程挑战
| 挑战 | 描述 |
|---|---|
| 向量空间对齐 | 不同模态分布差异大,纯无监督训练效果不佳 |
| 计算成本 | 图像 / 视频 embedding 比文本贵 10-100× |
| 存储 | 视频向量化后体积巨大(需视频分片) |
| 评估 | 跨模态相似度难有 ground truth |
| 向量数据库 支持 | 需多模态元数据 + 异构索引 |
在 AI 产业链中的位置
2024-25 RAG 的最热进化方向。GPT-4V / Gemini / Claude 等多模态 LLM 的普及,倒逼"检索层"也必须多模态化。向量数据库 厂商(Milvus / Weaviate / Pinecone)2025 重点升级方向都是多模态原生支持。
演进
- 2021 CLIP 论文 → 多模态向量元年
- 2023 多模态 LLM 普及(GPT-4V)→ 推动检索侧跟进
- 2024 ImageBind / SigLIP / BGE-VL 全面开花
- 2025 Voyage Multimodal / Cohere Multimodal 商业 API 上线
相关
∈ belongs_to::3-07-AI原生中间件与开发平台