模型版本控制(Model Registry / Versioning)
把 "代码 Git" 的版本控制思想搬到模型 — 每次训练产生的模型权重、超参数、训练数据指针、评估指标、依赖环境一并版本化,是 MLOps 的核心组件之一。
定义
模型版本控制是把每个模型工件(artifact)按版本号管理,记录:
| 维度 | 内容 |
|---|---|
| 模型权重 | 二进制权重文件、checkpoint |
| 元数据 | 训练数据集、超参数、训练代码 commit hash |
| 评估 | 验证集指标(accuracy / F1 / loss / 等) |
| 依赖 | Python 版本、库版本、Docker 镜像 |
| 血缘 | 上游数据 / 特征 / 训练任务 ID |
| 生命周期 | None → Staging → Production → Archived |
| 签名 & 安全 | SBOM、签名校验、漏洞扫描 |
主流工具
| 工具 | 出品 | 特点 |
|---|---|---|
| MLflow Model Registry | Databricks 开源 | 事实标准,开源 |
| Weights & Biases Models | W&B | 与实验追踪深度集成 |
| Hugging Face Hub | Hugging Face | 公开模型 "GitHub",100 万+ 模型 |
| Vertex AI Model Registry | Google Cloud | GCP 原生 |
| SageMaker Model Registry | AWS | AWS 原生 |
| Azure ML Model Registry | Microsoft | Azure 原生 |
| BentoML | BentoML | 开源 + 模型打包 |
中国对标
核心场景
- 可重现性 — 1 年前的模型能精确重训出来
- A/B 实验 — 同时上线多个版本对比效果
- 回滚 — 新版异常立即回到上版
- 审计与合规 — 金融/医疗强监管行业必须记录每次模型变更
- 多团队协作 — 数据科学家训完 → 上传 → 工程师拉取部署
- 联邦/边缘部署 — 同一模型不同版本下发到不同边缘节点
与传统 Git 的差异
| 维度 | Git(代码) | Model Registry(模型) |
|---|---|---|
| 文件大小 | KB-MB | MB-GB(甚至 100GB+ for LLM) |
| 差异计算 | Line-level diff | 二进制无意义,需指标对比 |
| 元数据 | commit 信息 | 训练数据 / 超参 / 指标 |
| 生命周期 | branch / tag | Stage 阶段(Staging→Prod) |
| 验收 | 代码评审 | 评估指标 + 公平性 + 漂移测试 |
演进
- 2018 ModelDB / Polyaxon 等早期工具
- 2019 MLflow 1.0 引入 Model Registry → 事实标准
- 2022 Hugging Face Hub 成为开源大模型标准发布平台
- 2024-25 LLM 时代,Model Registry 扩展支持 提示词版本 / RAG 知识库版本 / Agent 版本
相关
- MLOps / 特征工程 / 模型部署
- Weights & Biases / Hugging Face / Databricks
∈ belongs_to::3-07-AI原生中间件与开发平台
增量补充(2026-05-29)
- 核实正文「Hugging Face Hub 100 万+ 模型」属实且趋于保守:Hub 已于 2025 年突破 200 万公开模型(首个 100 万耗时约 1,000 天、第二个 100 万仅 335 天),用户超 1,300 万、公开数据集 50 万+(依据 Hugging Face 官方 "State of Open Source on Hugging Face" + arXiv 2508.06811 生态研究,T2,时点更新)。原 "100万+" 表述未失实,故不订正,仅补记最新量级。