数据血缘(Data Lineage)
追踪数据从源头采集到下游使用的 全链路依赖关系。让企业能回答"这份数据来自哪里、经过了哪些处理、被哪些应用使用"。是 数据治理 的核心能力之一,也是 AI 训练数据合规审计的基础。
是什么
- 字段级血缘:每个表的每个字段从哪个上游字段计算出来
- 作业级血缘:哪些 ETL / 训练任务读了哪些数据
- 跨系统血缘:从原始数据库 → ETL → 数据湖 → BI 工具的全链路追踪
在 AI 时代的关键作用
- AI Act 合规 — 必须能追溯训练数据来源
- 版权诉讼证据 — 证明训练数据是否包含特定版权内容
- 数据质量根因分析 — 模型预测异常时,追溯到原始数据问题
- 隐私合规 — GDPR 个人信息删除请求的"右被遗忘"需要血缘追踪
主要厂商
- 专业血缘:Informatica / Collibra / Alation / Atlan
- 平台内置:Databricks Unity Catalog / Snowflake Horizon
- 开源:OpenLineage / Marquez / Apache Atlas
演进
- 2005-2015:传统 ETL 工具(Informatica 等)做表级血缘
- 2015-2022:数据中台兴起,字段级血缘成标配
- 2024+:AI 训练数据血缘成新焦点,把数据 → 模型 → 推理输出全链路打通
相关概念
∈ belongs_to::4-01-数据引擎