数据治理(Data Governance)
涵盖 数据湖仓架构、数据质量管理、隐私合规、数据血缘追踪 等基础设施,为 AI 训练数据的存储、管理和合规使用提供底层支撑。在欧盟 AI Act / 中国《数据安全法》/ 美国州隐私法密集出台背景下,从"可选"变为"必选"。
定义
数据治理 = 谁拥有数据、谁能用数据、数据如何使用、用了之后如何追溯 的整套规则与工具。
核心能力
- 数据目录(Catalog) — 数据资产清单,让企业知道有什么数据
- 数据血缘(Lineage) — 追踪数据从源头到使用的全链路
- 数据质量 — 自动检测脏数据、缺失值、异常
- 隐私合规 — GDPR / HIPAA / CCPA / 中国《个人信息保护法》合规
- 访问控制 — 列级 / 行级权限、动态遮盖
- AI 治理(新) — 追踪 ML 模型使用了哪些数据、有何偏差
在 AI 时代的演进
- AI Act / 中国《生成式 AI 服务管理办法》驱动 — 必须能溯源训练数据
- AI 模型治理 = 数据治理 2.0 — 不仅治数据还要治模型(Collibra AI Governance、Databricks Unity Catalog)
- 大模型训练数据合规审计需求激增
主要玩家
- 国际数据治理软件:Informatica($90 亿)/ Collibra(估值约 $52.5 亿,Series G $250M 融资后,Collibra 官方公告 T1)/ Alation / Atlan
- 国际数据平台(含治理能力):Databricks Unity Catalog / Snowflake Horizon Catalog
- 中国:星环科技 / 百分点科技 / 拓尔思 + 阿里云 / 华为云原生能力
全球市场规模
- 2025 全球数据治理(平台/软件)市场:约 $48-54 亿(多家市场研究机构 2025 测算区间 $3.8-7.5B,多数聚集 $4.75-5.38B;Fortune Business Insights / Coherent Market Insights / Business Research Insights,T2 多源),AI 驱动加速增长
相关概念
∈ belongs_to::4-01-数据引擎
已废弃叙述
2026-05-29 数字订正:Collibra 估值 $57 亿 → 约 $52.5 亿(小数点丢失致 10 倍放大;依据 Collibra 官方公告 Series G $5.25B post-money,T1;本页 raw 源 4-01-数据引擎 Tier B 亦记为约 $5.7 亿量级)
- 国际数据治理软件:Informatica($90 亿)/ Collibra(估值 $57 亿)/ Alation / Atlan
2026-05-29 数字订正:2025 全球数据治理市场 约 $450 亿 → 约 $48-54 亿(高估约 10 倍,疑似 $4.5B 误写为 $450 亿;依据多家市场研究机构 2025 测算 $3.8-7.5B、聚集 $4.75-5.38B,T2 多源独立一致)
- 2025 全球数据治理平台市场:约 $450 亿,AI 驱动加速增长