AI产业链地图·知识库 数据漂移检测 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/数据漂移检测
更新 2026·06·17
概念 技术 / 术语

数据漂移检测

Data Drift Detection · Concept Drift · 概念漂移 · 模型漂移 · 分布漂移

模型上线后,输入数据分布可能因业务、季节、政策、用户行为变化而漂移,导致模型预测精度悄悄下降。漂移检测系统:

数据漂移检测 CONCEPT · 概念
首次提出
2010
关键参与方
[[Evidently AI]] · [[Arize AI]] · [[Fiddler AI]] · [[WhyLabs]]
反向引用
5 处 · 来自 4
归属 MLOps模型监控数据漂移第三层

数据漂移检测(Data Drift Detection)

自动检测生产环境数据分布是否偏离训练集 — 模型部署后悄悄"老化"的最大原因。MLOps 闭环中"监控 → 重训"的触发器。

定义

模型上线后,输入数据分布可能因业务、季节、政策、用户行为变化而漂移,导致模型预测精度悄悄下降。漂移检测系统:

  1. 持续采样生产数据
  2. 与训练集基线分布对比
  3. 触发告警 → 数据科学家分析 → 决定是否重训

三种主要漂移

类型 描述
数据漂移(Data / Covariate Drift) 输入 X 分布变化 新冠后用户消费习惯突变
概念漂移(Concept Drift) 输入→输出映射 P(Y|X) 变化 欺诈手法升级
标签漂移(Label Drift) 输出 Y 分布变化 流量结构变化

检测方法

方法 适用 描述
PSI(Population Stability Index) 数值/类别 工业最常用,按 bin 计算分布差异
KS 检验 数值 Kolmogorov-Smirnov 统计检验
Chi-square 检验 类别 类别分布差异检验
JS / KL 散度 概率分布 信息论度量
MMD(Maximum Mean Discrepancy) 高维 嵌入空间分布比较
Wasserstein 距离 数值 "搬运成本" 度量
基于模型 通用 训"漂移分类器" 区分新旧数据

主要玩家

  • Evidently AI — 开源监控库,事实标准
  • Arize AI — 商业 ML 可观测性平台,估值 $7 亿+
  • Fiddler AI — 偏向可解释性 + 漂移
  • WhyLabs — 数据观测专精
  • Datadog — 综合可观测性扩展到 ML 监控
  • Hugging Face Argilla — 数据集 / 反馈循环监控
  • Weights & Biases Weave — 实验追踪扩展到漂移

LLM 时代的扩展

LLM 漂移更难检测,但同样存在:

LLM 漂移类型 描述
提示词漂移 用户提问方式变化
嵌入漂移 同样问题 embedding 分布变化
幻觉率漂移 模型胡说八道频次上升
工具调用成功率漂移 Agent 工具失败率上升
成本漂移 平均 token / 任务上升
回答质量漂移 用户反馈 / 人工评估下降

中国玩家

演进

  • 2010s 学术研究:Concept Drift 检测算法
  • 2019-22 Evidently / Arize / Fiddler 等商业产品涌现
  • 2023+ 扩展到 LLMOps / AgentOps 维度
  • 2025 Datadog AI Monitoring → 综合可观测性厂商入局

相关

∈ belongs_to::3-07-AI原生中间件与开发平台