差分隐私(Differential Privacy)
由 Cynthia Dwork 等于 2006 年提出的隐私数学保证框架。对查询结果加上精心设计的随机噪声,使得是否包含某个个体在数据集中,对查询结果的影响小到可忽略。是当前最被广泛接受的隐私保护数学标准。
是什么
形式化定义:算法 M 满足 ε-差分隐私 ⇔ 对任意两个相邻数据集 D 和 D'(仅差一条记录),对任意输出 S:
P(M(D) ∈ S) ≤ exp(ε) × P(M(D') ∈ S)
ε 越小隐私越强(但效用越低),通常 ε ∈ [0.1, 10]。
关键应用
- 合成数据保证 — Gretel AI / MOSTLY AI 等用差分隐私保证合成数据不泄露原始记录
- 统计查询 — Apple iOS 用差分隐私收集用户行为统计
- 联邦学习 — 与 联邦学习 结合,保护模型梯度不泄露训练样本
- 公开数据集发布 — 美国人口普查 2020 用差分隐私发布数据
在 AI 训练数据中的角色
- 金融 / 医疗合规刚需 — GDPR / HIPAA 下,差分隐私是合规底线之一
- 合成数据公司核心卖点 — 没有差分隐私保证的合成数据存在反向工程风险
主要玩家
- 理论:Cynthia Dwork(微软研究院 / 哈佛)/ Aaron Roth(宾大)
- 合成数据:Gretel AI / MOSTLY AI / Syntho
- 大公司应用:Apple、Google、Microsoft、美国人口普查局
局限
- 效用 - 隐私权衡 — ε 越小数据越没用
- 实现复杂 — 算法设计需要专家
- 可解释性低 — 难以向业务用户解释
相关概念
∈ belongs_to::4-01-数据引擎