AI产业链地图·知识库 ANN · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/ANN

更新 2026·06·17

概念技术 / 术语

ANN

近似最近邻搜索 · Approximate Nearest Neighbor · ANN 搜索 · 近似最近邻

ANN CONCEPT · 概念

首次提出: 1998
关键参与方: [[Milvus]] · [[Pinecone]] · [[Faiss]] · [[hnswlib]]
反向引用: 8 处 · 来自 6 页

归属向量检索算法AI中间件第三层

ANN（Approximate Nearest Neighbor 近似最近邻搜索）

在 百万-十亿级高维向量 中，毫秒级找到与查询向量"最相似"的 Top-K 候选 — 准确度换速度的工程取舍，是向量数据库性能的物理上限。

定义

最近邻搜索（k-NN） 在高维空间是 NP-hard 难题：暴力线性扫描 N 个 d 维向量需 O(N·d)，百万向量+1k 维 = 单查询数十毫秒-数秒，无法满足在线检索 SLA。

ANN 用近似度换速度：不保证返回的 Top-K 是"全局精确最优"，只保证 召回率（recall） 在可控范围（典型 90-99%），但延迟降低 100-1000 倍。没有 ANN 就没有现代向量数据库。

核心算法家族

算法	原理	典型代表
HNSW	多层图，类似跳表	hnswlib / Milvus / Weaviate 默认
IVF（倒排文件）	k-means 聚类粗筛	Faiss / Milvus
PQ / OPQ（乘积量化）	向量压缩 4-32×	Faiss / Milvus 大规模场景
DiskANN	磁盘原生大规模	Microsoft 出品
ScaNN	Google 内部，剪枝+量化	Google Cloud 内置
SPANN	内存+磁盘混合	Microsoft 学术
LSH（局部敏感哈希）	哈希分桶	早期方案，已少用

关键工程指标

指标	含义
召回率（Recall@K）	返回 Top-K 与真实 Top-K 的重叠率
QPS	每秒查询数
P99 延迟	99% 查询的延迟上限
内存占用	单位向量索引开销
构建时间	全量索引构建耗时

性能边界

HNSW：召回 95-99%、QPS 高、内存大（向量 3-5×）
IVF-PQ：召回 80-95%、QPS 高、内存小（节省 8-32×）
DiskANN：召回 95%、磁盘原生、十亿向量可达

主要工业实现

Faiss（Meta）— 学术界事实标准
hnswlib（Yury Malkov）— HNSW 经典实现
Milvus / Pinecone / Weaviate / Qdrant — 商业向量数据库内置
pgvector — PostgreSQL 插件（用 HNSW / IVFFlat）

关键演进

1998 k-d tree（早期低维有效，高维灾难）
2008 LSH 大规模化
2016 Faiss 开源 → 工业级 ANN 普及
2018 HNSW 论文（Y. Malkov）→ 成为主流
2024-25 DiskANN / SPANN 走向十亿级 + 量化压缩极致优化

相关

向量数据库（核心载体）
HNSW / IVF / DiskANN（主流算法）
嵌入向量（被检索对象）

∈ belongs_to::3-07-AI原生中间件与开发平台

反向引用链接到本页

反向引用 8

按引用量 ↓

… # HNSW（Hierarchical Navigable Small World 层次可导航小世界图） > 当前 **[[向量数据库]] 事实标准** 的 ANN 索引算法 — 用"多层可导航图"结构，把 N 个高维向量的查询复杂度降到 **O(log N)**，召回率可达 95-99%。 ## 定义 HNSW 由 Yury Malkov 于 2016 论文 *"Efficient and ro …

… **绝大多数 [[向量数据库]] 在"中小规模 + 高召回"场景的默认选择**。一旦数据量超过单机内存（典型 1-10 亿向量），需切换到 IVF-PQ / DiskANN 等磁盘/量化方案。 ## 相关 - ANN（家族算法）/ [[向量数据库]]（载体） - [[嵌入向量]]（被索引对象） ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… G / 推荐 / 语义搜索的核心基础设施，是 LLM 时代崛起最快的新型数据基础设施品类。 ## 定义向量数据库以 **嵌入向量（[[嵌入向量]]）** 为一等公民，提供高维（通常 384 ~ 4,096 维）向量的存储、近似最近邻（ANN）检索、过滤、混合搜索等能力。相对传统数据库以"行/列/JSON"为存储单元，向量数据库以"向量+元数据"为存储单元，索引层使用 [[HNSW]] / IVF / DiskANN 等专为高维向量设计的算法。 …

… - **2024** 通用数据库内置向量能力，独立厂商护城河收窄 - **2025** [[Pinecone]] 探索出售标志独立赛道见顶 ## 相关 - [[嵌入向量]] / ANN / [[HNSW]] / [[混合搜索]] / [[多模态向量]] - [[RAG]]（最大下游应用） ↑ up::[[嵌入向量]] ↓ down::[[RAG]] …

查看原文 →

… - [[并行科技]]（920493.BJ，市值 ~￥60 亿）★★★ — 北交所稀缺，智算云 +151%，2025 涨 288% ## 核心技术维度 1. **向量数据库**：ANN / [[HNSW]] / [[IVF]] / [[嵌入向量]] / [[混合搜索]] / [[pgvector]] 2. **RAG 体系**：[[RAG]] / [[语义搜索]] / [[多模态向量]] …

查看原文 →

… - **[[Snowflake]] / [[BigQuery]] / [[Databricks]]** — 数仓阵营纷纷内置向量 ## 相关 - [[向量数据库]]（主要竞争对象） - [[HNSW]] / ANN（底层算法） ⚔ competitor::[[向量数据库]] [[Pinecone]] [[Weaviate]] [[Zilliz]] [[Chroma]] [[Milvus]] [[Qdrant]] …

查看原文 →

… - **2023** Cohere / BGE / E5 — 开源闭源大爆发 - **2024-25** [[多模态向量]] 普及 + 嵌入模型 token 价格 100x 下降 ## 相关 - [[向量数据库]]（存储） / ANN（检索算法） / [[RAG]]（核心应用） - [[多模态向量]]（文本+图像+音频统一） ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… - **2024** Weaviate / Elasticsearch / Pinecone 官方推 Hybrid - **2025** [[多模态向量]] 加入混合融合（文+图+音） ## 相关 - [[向量数据库]] / ANN / [[嵌入向量]] - [[RAG]]（核心下游） / Reranking ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →