AI产业链地图·知识库 后端网络 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/后端网络
更新 2026·06·17
概念 技术 / 术语

后端网络

Back-end Network · AI 后端网络 · GPU 网络 · Scale-out 网络 · Compute Fabric

AI 集群从硬件视角分两张网:

后端网络 CONCEPT · 概念
首次提出
2020
关键参与方
NVIDIA, Broadcom, Arista Networks, Meta
反向引用
4 处 · 来自 2
归属 网络架构AI集群GPU互联第三层

后端网络(Back-end Network / AI 集群专网)

AI 训练集群中专门承载 GPU-GPU 通信的"算力侧网络" — 与 前端网络(运维、管理、存储、对外服务)物理分离,独立组网以保证训练时 all-reduce / all-to-all 集合通信的带宽和延迟。未来 5 年 AI 后端交换机累计市场 $800 亿据3-06),相当于现有数据中心网络规模的 2 倍。

是什么

AI 集群从硬件视角分两张网:

网络 功能 协议 速率 流量特征
前端网络 业务接入、运维、存储 以太网 100G / 400G 南北向,散流
后端网络 GPU-GPU 集合通信 InfiniBand / RoCEv2(Ultra Ethernet 400G / 800G / 1.6T 东西向,洪流

后端网络的核心需求是 大带宽 + 极低尾延迟 + 无损传输——任何一条链路丢包都会让 all-reduce 重试,严重拖慢训练。

为什么独立组网

  1. 流量特征完全不同 — 前端是无数小连接,后端是少数巨流,传统 ECMP 哈希在后端会因极化失效
  2. 协议栈不兼容 — 后端需要 RDMA / 零拷贝,传统 TCP 走不动 80%+ 链路利用率
  3. 拓扑独特 — 后端典型为 Fat-Tree 或 Dragonfly+,全连接 / 多平面,与前端的 Spine-Leaf 不同
  4. 运维隔离 — 前端故障不影响训练任务

市场规模

维度 数据
AI 后端网络累计 5 年(2025-2029) $800 亿
全球数据中心网络(2024→2029E) $240 → $900 亿(CAGR 30%)
AI 集群交换机 CAGR 55%(2023-2026)
2025 Q3 以太网占 AI 集群交换机出货 2/3+
AI 后端以太网 NVIDIA+Celestica 份额 ~50%(2025)

主要玩家

NVLink 的层级关系

范围 协议 当代速率
Scale-up 机柜内 GPU-GPU NVLink / NVSwitch 1.8 TB/s(NVL72)
Scale-out(后端网络) 机柜间 GPU 集群 InfiniBand / Spectrum-X / UEC 400G-1.6T/端口
前端 集群对外 / 存储 / 管理 以太网 100-400G

在 AI 产业链中的角色

后端网络是 AI 训练的"咽喉"——GPU 算力涨 10×,但后端带宽涨不上去就只能空转。NVIDIA 通过 Spectrum-X + BlueField 端到端绑定后端网络,让客户买完 GPU 必须买配套交换机/DPU。这也是 Ultra Ethernet 联盟想撕开的最大缺口。

∈ belongs_to::3-06-数据中心网络架构与互联服务