AI产业链地图·知识库 数据血缘 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/数据血缘
更新 2026·06·17
概念 技术 / 术语

数据血缘

Data Lineage · 数据溯源

数据血缘 CONCEPT · 概念
首次提出
2005
关键参与方
[[Informatica]] · [[Collibra]] · [[Databricks]]
反向引用
3 处 · 来自 3
归属 数据血缘数据治理合规第四层

数据血缘(Data Lineage)

追踪数据从源头采集到下游使用的 全链路依赖关系。让企业能回答"这份数据来自哪里、经过了哪些处理、被哪些应用使用"。是 数据治理 的核心能力之一,也是 AI 训练数据合规审计的基础。

是什么

  • 字段级血缘:每个表的每个字段从哪个上游字段计算出来
  • 作业级血缘:哪些 ETL / 训练任务读了哪些数据
  • 跨系统血缘:从原始数据库 → ETL → 数据湖 → BI 工具的全链路追踪

在 AI 时代的关键作用

  • AI Act 合规 — 必须能追溯训练数据来源
  • 版权诉讼证据 — 证明训练数据是否包含特定版权内容
  • 数据质量根因分析 — 模型预测异常时,追溯到原始数据问题
  • 隐私合规 — GDPR 个人信息删除请求的"右被遗忘"需要血缘追踪

主要厂商

演进

  • 2005-2015:传统 ETL 工具(Informatica 等)做表级血缘
  • 2015-2022:数据中台兴起,字段级血缘成标配
  • 2024+:AI 训练数据血缘成新焦点,把数据 → 模型 → 推理输出全链路打通

相关概念

∈ belongs_to::4-01-数据引擎