pgvector
PostgreSQL 的开源向量插件 — 把传统关系型数据库变成"自带向量搜索"的混合数据库。是独立向量数据库(Pinecone / Weaviate / Zilliz)面临"功能化"危机的最大推手。
定义
pgvector 是 PostgreSQL 的开源扩展,由 Andrew Kane 于 2021 年创建。通过 CREATE EXTENSION vector 即可在 PG 中添加 vector 数据类型 + ANN 索引 + 距离度量。从 v0.5 起原生支持 HNSW 索引。
关键能力
CREATE EXTENSION vector;
CREATE TABLE items (id bigserial, embedding vector(1536));
CREATE INDEX ON items USING hnsw (embedding vector_cosine_ops);
SELECT * FROM items
ORDER BY embedding <=> '[0.1, 0.2, ...]' LIMIT 5;
| 能力 | 实现 |
|---|---|
| 向量类型 | vector(N)(最大 16,000 维) |
| 距离度量 | <-> L2、<#> 内积、<=> 余弦 |
| 索引 | IVFFlat(v0.4+)、HNSW(v0.5+) |
| 与 SQL 整合 | JOIN、WHERE、ORDER BY 全部可用 |
为什么颠覆独立向量数据库
| 维度 | 独立向量库(Pinecone) | pgvector |
|---|---|---|
| 学习成本 | 新 API / 新协议 | 标准 SQL |
| 数据冗余 | 关系数据 ↔ 向量库双写 | 单一存储 |
| 事务一致性 | 跨系统难保证 | PG 原生 ACID |
| 运维成本 | 多一套系统 | 复用现有 PG 团队 |
| 性能(小-中规模) | 略快 | 足够用(千万级向量 OK) |
| 性能(十亿级) | 强 | 受 PG 单机限制 |
| 成本 | 商业 SaaS 贵 | 免费开源 |
结论:对中小规模(< 100M 向量)和已用 PG 的客户,pgvector "够用 + 几乎零额外成本"。
标志事件
- 2024-25 Notion 等大客户从 Pinecone 迁出,部分使用 pgvector / 内部方案
- 2025 下半年 Pinecone 探索出售,被视为独立向量数据库赛道见顶的标志事件(据3-07)
- 2025 Databricks $10 亿收购 Neon(Serverless PG,内置 pgvector),完成向量栈布局
商业化承载
- Supabase(开源 Firebase 替代)— 一键启用 pgvector,AI 应用栈首选
- Neon(Serverless PG,已被 Databricks 收购)— 原生支持 pgvector
- AWS Aurora / RDS — 官方支持 pgvector
- Google Cloud SQL / Azure Database for PostgreSQL — 内置 pgvector
替代方案
- MongoDB Atlas Vector Search — MongoDB 阵营对标
- Elasticsearch dense_vector — 搜索引擎阵营对标
- Redis Vector Search — KV 阵营对标
- Snowflake / BigQuery / Databricks — 数仓阵营纷纷内置向量
相关
⚔ competitor::向量数据库 Pinecone Weaviate Zilliz Chroma Milvus Qdrant ∈ belongs_to::3-07-AI原生中间件与开发平台