嵌入向量(Embedding)
AI 模型把任意输入(文本 / 图像 / 音频 / 代码)映射到 高维连续向量空间 — 让"语义相似"等价于"向量距离近",是现代 AI 搜索/推荐/RAG 的底层物理基础。
定义
嵌入(Embedding)= 通过深度学习模型把离散对象(如一段文本)映射为定长稠密向量(通常 384、768、1024、1536 或 3072 维),使得语义相似的对象在向量空间中距离更近。例如句子 "猫在睡觉" 与 "小猫在打盹" 的余弦相似度会显著高于 "经济政策"。
关键属性
| 维度 | 典型值 |
|---|---|
| 维度数 | 384(小) / 768 / 1024 / 1536(OpenAI ada-002) / 3072(OpenAI 3-large) |
| 距离度量 | 余弦相似度 / 内积 / 欧氏距离 |
| 模态 | 文本 / 图像(CLIP)/ 音频 / 代码 / 多模态融合 |
| 量化 | float32 → float16 / int8 / binary(节省 4-32 倍空间) |
主流嵌入模型
闭源 API
- OpenAI text-embedding-3-large / 3-small / ada-002
- Cohere embed-v3
- Voyage AI voyage-3
- Google gemini-embedding-001
- 阿里云 text-embedding-v3
开源
- BGE(北京智源)— 多语言开源 SOTA,BAAI 出品
- E5 (Microsoft) / GTE (阿里) / Nomic / Jina Embeddings
- Sentence-BERT — 经典开源
多模态
- CLIP (OpenAI) — 图文统一向量空间
- SigLIP (Google) / CLIP-ViT-L
在 AI 产业链中的角色
嵌入向量是 RAG / 向量数据库 / 语义搜索 / 推荐系统 / 异常检测 的共同物理基础。没有嵌入,向量数据库 没有存储对象,RAG 没有可检索的语义空间。
演进历史
- 2013 Word2Vec(Tomas Mikolov, Google)— 词嵌入开端
- 2018 BERT — 上下文嵌入,预训练范式
- 2022 OpenAI text-embedding-ada-002 → API 化普及
- 2023 Cohere / BGE / E5 — 开源闭源大爆发
- 2024-25 多模态向量 普及 + 嵌入模型 token 价格 100x 下降
相关
∈ belongs_to::3-07-AI原生中间件与开发平台