联邦学习(Federated Learning)
Google 在 2016 年提出的隐私保护机器学习框架。模型去数据所在地训练,而不是数据被汇总到模型所在地。让多个机构在不共享原始数据的前提下联合训练模型。
是什么
经典联邦学习流程:
- 中心服务器把全局模型发给各参与方
- 各参与方在本地数据上训练,得到本地模型更新
- 各参与方把模型梯度(不是数据)上传到中心服务器
- 中心服务器聚合梯度,更新全局模型
- 重复 1-4 直到收敛
关键应用
- 手机端 AI 训练 — Google Gboard 输入法、Apple Siri
- 跨银行风控 — 微众银行 FATE 框架,多家银行联合训练反欺诈
- 跨医院医学影像 — 罕见病数据各医院都少,联合训练
- 大模型微调(新) — 多个企业用各自数据联合微调
联邦学习类型
- 横向联邦(Horizontal FL)— 不同样本、相同特征(如多家银行的不同客户)
- 纵向联邦(Vertical FL)— 相同样本、不同特征(如同一客户在银行 + 电商的不同数据)
- 联邦迁移学习 — 不同样本不同特征
在 AI 训练数据中的角色
- 数据治理 + 隐私保护一体化 — 在不动数据的前提下完成训练
- 应对中国《个人信息保护法》/ GDPR 等数据出境管制
- 跨企业数据协同新范式
主要玩家
- 国际:Google(提出方)/ Apple / NVIDIA / IBM Watson Health
- 中国:微众银行(FATE 框架,开源主导)/ 平安 / 蚂蚁集团
局限
- 通信开销大 — 多轮模型同步
- 梯度反推风险 — 不加差分隐私时,梯度可能泄露训练数据
- 大模型时代效率挑战 — LLM 参数巨大,联邦学习成本高
相关概念
∈ belongs_to::4-01-数据引擎