AI产业链地图·知识库 差分隐私 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/差分隐私

更新 2026·06·17

概念技术 / 术语

差分隐私

Differential Privacy · DP

形式化定义：算法 M 满足 ε-差分隐私 ⇔ 对任意两个相邻数据集 D 和 D'（仅差一条记录），对任意输出 S：

差分隐私 CONCEPT · 概念

首次提出: 2006
关键参与方: [[Gretel AI]] · [[MOSTLY AI]] · [[Google]] · [[Apple]]
反向引用: 6 处 · 来自 6 页

归属差分隐私隐私计算合规第四层

差分隐私（Differential Privacy）

由 Cynthia Dwork 等于 2006 年提出的隐私数学保证框架。对查询结果加上精心设计的随机噪声，使得是否包含某个个体在数据集中，对查询结果的影响小到可忽略。是当前最被广泛接受的隐私保护数学标准。

是什么

形式化定义：算法 M 满足 ε-差分隐私 ⇔ 对任意两个相邻数据集 D 和 D'（仅差一条记录），对任意输出 S：

P(M(D) ∈ S) ≤ exp(ε) × P(M(D') ∈ S)

ε 越小隐私越强（但效用越低），通常 ε ∈ [0.1, 10]。

关键应用

合成数据保证 — Gretel AI / MOSTLY AI 等用差分隐私保证合成数据不泄露原始记录
统计查询 — Apple iOS 用差分隐私收集用户行为统计
联邦学习 — 与联邦学习结合，保护模型梯度不泄露训练样本
公开数据集发布 — 美国人口普查 2020 用差分隐私发布数据

在 AI 训练数据中的角色

金融 / 医疗合规刚需 — GDPR / HIPAA 下，差分隐私是合规底线之一
合成数据公司核心卖点 — 没有差分隐私保证的合成数据存在反向工程风险

主要玩家

理论：Cynthia Dwork（微软研究院 / 哈佛）/ Aaron Roth（宾大）
合成数据：Gretel AI / MOSTLY AI / Syntho
大公司应用：Apple、Google、Microsoft、美国人口普查局

局限

效用 - 隐私权衡 — ε 越小数据越没用
实现复杂 — 算法设计需要专家
可解释性低 — 难以向业务用户解释

相关概念

∈ belongs_to::4-01-数据引擎

反向引用链接到本页

反向引用 6

按引用量 ↓

… 5. **数据治理**：[[数据治理]] / [[数据血缘]] / 数据版本管理 / 偏差检测 / 去重去污染 6. **隐私增强计算**：[[联邦学习]] / 差分隐私 / 可信执行环境 7. **数据稀缺性危机**：[[高质量数据枯竭]]（Epoch AI 预测 2026 年高质量文本数据耗尽） ## 上下游关系 ↑ up::[[3-01-云计算与智算平台]] — 数据基础设施承载于云端 …

查看原文 →

… - **Gretel ACTGAN** — 表格数据 GAN 模型 - **Gretel Navigator** — 自然语言交互式合成数据生成 ## 技术亮点 - **内置差分隐私** — 用差分隐私数学保证合成数据不泄露原始训练数据 - **多模态合成** — 表格 / 文本 / 时间序列统一平台 - **API-first** — 开发者友好的 SDK 与 API …

查看原文 →

… - **2024 全球市场**：$25-35 亿，CAGR 35%+ - **2029E 合成表格数据**：$67.3 亿 - **2035E**：$124.5 亿（Nester） ## 相关概念 - 差分隐私（合成数据的隐私保证基础） - [[数据引擎]] / [[数据标注]]（替代关系） - [[高质量数据枯竭]]（合成数据爆发的根本驱动） ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… ## 相关概念 - [[数据标注]] / [[Auto-labeling]] - [[RLHF]] / [[DPO]] / [[RLAIF]] - [[合成数据]] / 差分隐私- [[数据湖仓]] / [[Lakehouse]] / [[数据治理]] - [[版权数据]] / [[高质量数据枯竭]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →

… ket Insights / Business Research Insights，T2 多源），AI 驱动加速增长 ## 相关概念 - [[数据血缘]] / [[数据湖仓]] / [[Lakehouse]] - [[联邦学习]] / 差分隐私- [[版权数据]] / [[合成数据]]（合规视角下相关） ∈ belongs_to::[[4-01-数据引擎]] ## 已废弃叙述 <details> …

查看原文 →

… - **梯度反推风险** — 不加差分隐私时，梯度可能泄露训练数据 - **大模型时代效率挑战** — LLM 参数巨大，联邦学习成本高 ## 相关概念 - 差分隐私（互补技术，常组合使用） - [[数据治理]] ∈ belongs_to::[[4-01-数据引擎]] …

查看原文 →