AI产业链地图·知识库 多模态向量 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/多模态向量

更新 2026·06·17

概念技术 / 术语

多模态向量

Multimodal Embedding · 多模态嵌入 · 跨模态向量 · Cross-modal Embedding

多模态向量是指用同一个模型把多种模态（文本、图像、音频等）映射到共享向量空间，使得不同模态的语义相似项在空间中距离接近。例如文本 "一只奔跑的金毛犬" 与一张金毛奔跑图片，向量距离应显著小于无关图片。

多模态向量 CONCEPT · 概念

首次提出: 2021
关键参与方: [[OpenAI]] · [[Google]] · [[Cohere]] · [[Jina AI]]
反向引用: 5 处 · 来自 4 页

归属向量多模态嵌入第三层

多模态向量（Multimodal Embedding）

把 文本 / 图像 / 音频 / 视频 / 代码 统一编码到同一个向量空间 — 让"用文字搜图片"、"用图片搜视频"成为单次向量检索，是下一代 RAG 与电商/媒体搜索的核心基础。

定义

多模态向量是指用同一个模型把多种模态（文本、图像、音频等）映射到共享向量空间，使得不同模态的语义相似项在空间中距离接近。例如文本 "一只奔跑的金毛犬" 与一张金毛奔跑图片，向量距离应显著小于无关图片。

核心模型

模型	出品方	模态
CLIP	OpenAI（2021）	文 + 图
SigLIP	Google	文 + 图
AudioCLIP / CLAP	学术	文 + 音
ImageBind	Meta	6 模态（文/图/音/深度/热成像/IMU）
Jina CLIP	Jina AI	文 + 图（多语言）
BGE-VL	智源	文 + 图（中英）
Cohere Embed Multimodal	Cohere	文 + 图
Voyage Multimodal	Voyage AI	文 + 图（PDF 友好）

关键应用

电商搜索：拍照搜款（Amazon / 阿里、Pinterest）
媒体检索：跨模态视频/图片库搜索
多模态 RAG：用户问问题 → 同时检索文档+图表+流程图
设计 / 资产管理：用文字描述找设计稿、素材
医疗影像：用主诉文字检索相似 CT/X 光
机器人：把视觉、语音、文本指令统一表示

工程挑战

挑战	描述
向量空间对齐	不同模态分布差异大，纯无监督训练效果不佳
计算成本	图像 / 视频 embedding 比文本贵 10-100×
存储	视频向量化后体积巨大（需视频分片）
评估	跨模态相似度难有 ground truth
向量数据库支持	需多模态元数据 + 异构索引

在 AI 产业链中的位置

2024-25 RAG 的最热进化方向。GPT-4V / Gemini / Claude 等多模态 LLM 的普及，倒逼"检索层"也必须多模态化。向量数据库厂商（Milvus / Weaviate / Pinecone）2025 重点升级方向都是多模态原生支持。

演进

2021 CLIP 论文 → 多模态向量元年
2023 多模态 LLM 普及（GPT-4V）→ 推动检索侧跟进
2024 ImageBind / SigLIP / BGE-VL 全面开花
2025 Voyage Multimodal / Cohere Multimodal 商业 API 上线

相关

嵌入向量（父概念）/ 向量数据库（载体）
CLIP / RAG

∈ belongs_to::3-07-AI原生中间件与开发平台

反向引用链接到本页

反向引用 5

按引用量 ↓

… - **2022** OpenAI text-embedding-ada-002 → API 化普及 - **2023** Cohere / BGE / E5 — 开源闭源大爆发 - **2024-25** 多模态向量普及 + 嵌入模型 token 价格 100x 下降 ## 相关 - [[向量数据库]]（存储） / [[ANN]]（检索算法） / [[RAG]]（核心应用） …

… - **2024-25** [[多模态向量]] 普及 + 嵌入模型 token 价格 100x 下降 ## 相关 - [[向量数据库]]（存储） / [[ANN]]（检索算法） / [[RAG]]（核心应用） - 多模态向量（文本+图像+音频统一） ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… 1. **向量数据库**：[[ANN]] / [[HNSW]] / [[IVF]] / [[嵌入向量]] / [[混合搜索]] / [[pgvector]] 2. **RAG 体系**：[[RAG]] / [[语义搜索]] / 多模态向量3. **MLOps 工作流**：[[实验管理]] / [[超参数追踪]] / [[模型版本控制]] / [[特征工程]] 4. **模型部署**：[[ONNX]] / [[TensorRT]] / [[A-B 测试]] / [[蓝绿部署 …

查看原文 →

… - **2025** [[Pinecone]] 探索出售标志独立赛道见顶 ## 相关 - [[嵌入向量]] / [[ANN]] / [[HNSW]] / [[混合搜索]] / 多模态向量- [[RAG]]（最大下游应用） ↑ up::[[嵌入向量]] ↓ down::[[RAG]] ⚔ competitor::[[pgvector]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… - **2023** 业界发现纯向量"漏关键字"严重 → 混合搜索回归 - **2024** Weaviate / Elasticsearch / Pinecone 官方推 Hybrid - **2025** 多模态向量加入混合融合（文+图+音） ## 相关 - [[向量数据库]] / [[ANN]] / [[嵌入向量]] - [[RAG]]（核心下游） / Reranking …

查看原文 →