AI产业链地图·知识库 嵌入向量 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/嵌入向量
更新 2026·06·17
概念 技术 / 术语

嵌入向量

Embedding · 向量嵌入 · 语义向量 · Word Embedding · Embedding Vector

嵌入(Embedding)= 通过深度学习模型把离散对象(如一段文本)映射为定长稠密向量(通常 384、768、1024、1536 或 3072 维),使得语义相似的对象在向量空间中距离更近。例如句子 "猫在睡觉" 与 "小猫在打盹" 的余弦相似度会显著高于 "经济政策"。

嵌入向量 CONCEPT · 概念
首次提出
2013
关键参与方
[[OpenAI]] · [[Cohere]] · [[BGE]] · [[Hugging Face]]
反向引用
12 处 · 来自 10
归属 向量嵌入AI基础第三层

嵌入向量(Embedding)

AI 模型把任意输入(文本 / 图像 / 音频 / 代码)映射到 高维连续向量空间 — 让"语义相似"等价于"向量距离近",是现代 AI 搜索/推荐/RAG 的底层物理基础。

定义

嵌入(Embedding)= 通过深度学习模型把离散对象(如一段文本)映射为定长稠密向量(通常 384、768、1024、1536 或 3072 维),使得语义相似的对象在向量空间中距离更近。例如句子 "猫在睡觉" 与 "小猫在打盹" 的余弦相似度会显著高于 "经济政策"。

关键属性

维度 典型值
维度数 384(小) / 768 / 1024 / 1536(OpenAI ada-002) / 3072(OpenAI 3-large)
距离度量 余弦相似度 / 内积 / 欧氏距离
模态 文本 / 图像(CLIP)/ 音频 / 代码 / 多模态融合
量化 float32 → float16 / int8 / binary(节省 4-32 倍空间)

主流嵌入模型

闭源 API

  • OpenAI text-embedding-3-large / 3-small / ada-002
  • Cohere embed-v3
  • Voyage AI voyage-3
  • Google gemini-embedding-001
  • 阿里云 text-embedding-v3

开源

  • BGE(北京智源)— 多语言开源 SOTA,BAAI 出品
  • E5 (Microsoft) / GTE (阿里) / Nomic / Jina Embeddings
  • Sentence-BERT — 经典开源

多模态

  • CLIP (OpenAI) — 图文统一向量空间
  • SigLIP (Google) / CLIP-ViT-L

在 AI 产业链中的角色

嵌入向量是 RAG / 向量数据库 / 语义搜索 / 推荐系统 / 异常检测 的共同物理基础。没有嵌入,向量数据库 没有存储对象,RAG 没有可检索的语义空间。

演进历史

  • 2013 Word2Vec(Tomas Mikolov, Google)— 词嵌入开端
  • 2018 BERT — 上下文嵌入,预训练范式
  • 2022 OpenAI text-embedding-ada-002 → API 化普及
  • 2023 Cohere / BGE / E5 — 开源闭源大爆发
  • 2024-25 多模态向量 普及 + 嵌入模型 token 价格 100x 下降

相关

∈ belongs_to::3-07-AI原生中间件与开发平台