AI产业链地图·知识库 多模态向量 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/多模态向量
更新 2026·06·17
概念 技术 / 术语

多模态向量

Multimodal Embedding · 多模态嵌入 · 跨模态向量 · Cross-modal Embedding

多模态向量是指用同一个模型把多种模态(文本、图像、音频等)映射到共享向量空间,使得不同模态的语义相似项在空间中距离接近。例如文本 "一只奔跑的金毛犬" 与一张金毛奔跑图片,向量距离应显著小于无关图片。

多模态向量 CONCEPT · 概念
首次提出
2021
关键参与方
[[OpenAI]] · [[Google]] · [[Cohere]] · [[Jina AI]]
反向引用
5 处 · 来自 4
归属 向量多模态嵌入第三层

多模态向量(Multimodal Embedding)

文本 / 图像 / 音频 / 视频 / 代码 统一编码到同一个向量空间 — 让"用文字搜图片"、"用图片搜视频"成为单次向量检索,是下一代 RAG 与电商/媒体搜索的核心基础。

定义

多模态向量是指用同一个模型把多种模态(文本、图像、音频等)映射到共享向量空间,使得不同模态的语义相似项在空间中距离接近。例如文本 "一只奔跑的金毛犬" 与一张金毛奔跑图片,向量距离应显著小于无关图片。

核心模型

模型 出品方 模态
CLIP OpenAI(2021) 文 + 图
SigLIP Google 文 + 图
AudioCLIP / CLAP 学术 文 + 音
ImageBind Meta 6 模态(文/图/音/深度/热成像/IMU)
Jina CLIP Jina AI 文 + 图(多语言)
BGE-VL 智源 文 + 图(中英)
Cohere Embed Multimodal Cohere 文 + 图
Voyage Multimodal Voyage AI 文 + 图(PDF 友好)

关键应用

  • 电商搜索:拍照搜款(Amazon / 阿里、Pinterest)
  • 媒体检索:跨模态视频/图片库搜索
  • 多模态 RAG:用户问问题 → 同时检索文档+图表+流程图
  • 设计 / 资产管理:用文字描述找设计稿、素材
  • 医疗影像:用主诉文字检索相似 CT/X 光
  • 机器人:把视觉、语音、文本指令统一表示

工程挑战

挑战 描述
向量空间对齐 不同模态分布差异大,纯无监督训练效果不佳
计算成本 图像 / 视频 embedding 比文本贵 10-100×
存储 视频向量化后体积巨大(需视频分片)
评估 跨模态相似度难有 ground truth
向量数据库 支持 需多模态元数据 + 异构索引

在 AI 产业链中的位置

2024-25 RAG 的最热进化方向。GPT-4V / Gemini / Claude 等多模态 LLM 的普及,倒逼"检索层"也必须多模态化。向量数据库 厂商(Milvus / Weaviate / Pinecone)2025 重点升级方向都是多模态原生支持

演进

  • 2021 CLIP 论文 → 多模态向量元年
  • 2023 多模态 LLM 普及(GPT-4V)→ 推动检索侧跟进
  • 2024 ImageBind / SigLIP / BGE-VL 全面开花
  • 2025 Voyage Multimodal / Cohere Multimodal 商业 API 上线

相关

∈ belongs_to::3-07-AI原生中间件与开发平台