AI产业链地图·知识库 模型版本控制 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/模型版本控制

更新 2026·06·17

概念技术 / 术语

模型版本控制

Model Registry · Model Versioning · 模型注册中心 · 模型仓库

模型版本控制是把每个模型工件（artifact）按版本号管理，记录：

模型版本控制 CONCEPT · 概念

首次提出: 2018
关键参与方: [[MLflow]] · [[Weights & Biases]] · [[Hugging Face]] · [[Databricks]]
反向引用: 7 处 · 来自 5 页

归属 MLOps模型管理版本控制第三层

模型版本控制（Model Registry / Versioning）

把 "代码 Git" 的版本控制思想搬到模型 — 每次训练产生的模型权重、超参数、训练数据指针、评估指标、依赖环境一并版本化，是 MLOps 的核心组件之一。

定义

模型版本控制是把每个模型工件（artifact）按版本号管理，记录：

维度	内容
模型权重	二进制权重文件、checkpoint
元数据	训练数据集、超参数、训练代码 commit hash
评估	验证集指标（accuracy / F1 / loss / 等）
依赖	Python 版本、库版本、Docker 镜像
血缘	上游数据 / 特征 / 训练任务 ID
生命周期	None → Staging → Production → Archived
签名 & 安全	SBOM、签名校验、漏洞扫描

主流工具

工具	出品	特点
MLflow Model Registry	Databricks 开源	事实标准，开源
Weights & Biases Models	W&B	与实验追踪深度集成
Hugging Face Hub	Hugging Face	公开模型 "GitHub"，100 万+ 模型
Vertex AI Model Registry	Google Cloud	GCP 原生
SageMaker Model Registry	AWS	AWS 原生
Azure ML Model Registry	Microsoft	Azure 原生
BentoML	BentoML	开源 + 模型打包

中国对标

第四范式 先知 AI 平台内置模型注册
星环科技 Sophon Model Registry
百度 BML / 阿里云 PAI / 腾讯 TI — 云厂商一站式

核心场景

可重现性 — 1 年前的模型能精确重训出来
A/B 实验 — 同时上线多个版本对比效果
回滚 — 新版异常立即回到上版
审计与合规 — 金融/医疗强监管行业必须记录每次模型变更
多团队协作 — 数据科学家训完 → 上传 → 工程师拉取部署
联邦/边缘部署 — 同一模型不同版本下发到不同边缘节点

与传统 Git 的差异

维度	Git（代码）	Model Registry（模型）
文件大小	KB-MB	MB-GB（甚至 100GB+ for LLM）
差异计算	Line-level diff	二进制无意义，需指标对比
元数据	commit 信息	训练数据 / 超参 / 指标
生命周期	branch / tag	Stage 阶段（Staging→Prod）
验收	代码评审	评估指标 + 公平性 + 漂移测试

演进

2018 ModelDB / Polyaxon 等早期工具
2019 MLflow 1.0 引入 Model Registry → 事实标准
2022 Hugging Face Hub 成为开源大模型标准发布平台
2024-25 LLM 时代，Model Registry 扩展支持 提示词版本 / RAG 知识库版本 / Agent 版本

相关

MLOps / 特征工程 / 模型部署
Weights & Biases / Hugging Face / Databricks

∈ belongs_to::3-07-AI原生中间件与开发平台

增量补充（2026-05-29）

核实正文「Hugging Face Hub 100 万+ 模型」属实且趋于保守：Hub 已于 2025 年突破 200 万公开模型（首个 100 万耗时约 1,000 天、第二个 100 万仅 335 天），用户超 1,300 万、公开数据集 50 万+（依据 Hugging Face 官方 "State of Open Source on Hugging Face" + arXiv 2508.06811 生态研究，T2，时点更新）。原 "100万+" 表述未失实，故不订正，仅补记最新量级。

反向引用链接到本页

反向引用 7

按引用量 ↓

… 1. **数据版本控制**（DVC、LakeFS） 2. **[[特征工程]]** 与特征存储（Feature Store） 3. **实验管理**（实验追踪、超参数搜索） 4. **模型版本控制**（Model Registry） 5. **模型部署**（A/B、蓝绿、金丝雀） 6. **模型监控**（[[数据漂移检测]]、性能退化、公平性） 7. **CI/CD/CT**（Continuous Training，自动重训练） …

… → AgentOps（2025+，Agent 工作流、多 Agent 编排、工具调用监控） ``` ## 相关 - [[LLMOps]] / [[AgentOps]]（演进版本） - [[特征工程]] / 模型版本控制 / [[数据漂移检测]] / [[模型部署]] - [[Weights & Biases]] / [[Databricks]] / [[第四范式]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… 1. **训推不一致**（Training-Serving Skew） — 特征工程在训练 / 推理两处不一致 2. **冷启动** — 模型加载慢、首请求延迟高 3. **多模型版本管理** — 与模型版本控制紧密耦合 4. **资源调度** — GPU 利用率、自动扩缩容 5. **回滚 & 灾备** — 新版翻车 30 秒回滚 ## LLM 时代的特殊性 - LLM 单实例可服务百万 / 千万用户 → 调度复杂度爆炸 …

… - 推理成本高 → 优化（PagedAttention、连续批处理、量化）至关重要 - 多模型路由（小模型先答，大模型回退） → 与 [[LLMOps]] / [[AgentOps]] 融合 ## 相关 - [[MLOps]] / 模型版本控制 / [[数据漂移检测]] - [[4-04-模型部署与优化]]（深度优化在该子行业） ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… 2. **RAG 体系**：[[RAG]] / [[语义搜索]] / [[多模态向量]] 3. **MLOps 工作流**：[[实验管理]] / [[超参数追踪]] / 模型版本控制 / [[特征工程]] 4. **模型部署**：[[ONNX]] / [[TensorRT]] / [[A-B 测试]] / [[蓝绿部署]] 5. **模型监控**：[[数据漂移检测]] / [[推理延迟监控]] / [[模型性能退化告警 …

查看原文 →

… - **2025** Datadog AI Monitoring → 综合可观测性厂商入局 ## 相关 - [[MLOps]] / [[LLMOps]] / [[AgentOps]] - [[模型部署]] / 模型版本控制- [[Datadog]] ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →

… - **2020-23** Feature Store 标准化、商业化爆发 - **2024-25** LLM 浪潮让纯特征工程平台估值承压，纷纷加 [[向量数据库]] / RAG 能力 ## 相关 - [[MLOps]] / 模型版本控制 / [[数据漂移检测]] - [[向量数据库]]（部分场景的"嵌入版"替代） ∈ belongs_to::[[3-07-AI原生中间件与开发平台]] …

查看原文 →