后端网络（Back-end Network / AI 集群专网）

AI 训练集群中专门承载 GPU-GPU 通信的"算力侧网络" — 与前端网络（运维、管理、存储、对外服务）物理分离，独立组网以保证训练时 all-reduce / all-to-all 集合通信的带宽和延迟。未来 5 年 AI 后端交换机累计市场 $800 亿（据3-06），相当于现有数据中心网络规模的 2 倍。

是什么

AI 集群从硬件视角分两张网：

网络	功能	协议	速率	流量特征
前端网络	业务接入、运维、存储	以太网	100G / 400G	南北向，散流
后端网络	GPU-GPU 集合通信	InfiniBand / RoCEv2（Ultra Ethernet）	400G / 800G / 1.6T	东西向，洪流

后端网络的核心需求是 大带宽 + 极低尾延迟 + 无损传输——任何一条链路丢包都会让 all-reduce 重试，严重拖慢训练。

为什么独立组网

流量特征完全不同 — 前端是无数小连接，后端是少数巨流，传统 ECMP 哈希在后端会因极化失效
协议栈不兼容 — 后端需要 RDMA / 零拷贝，传统 TCP 走不动 80%+ 链路利用率
拓扑独特 — 后端典型为 Fat-Tree 或 Dragonfly+，全连接 / 多平面，与前端的 Spine-Leaf 不同
运维隔离 — 前端故障不影响训练任务

市场规模

维度	数据
AI 后端网络累计 5 年（2025-2029）	$800 亿
全球数据中心网络（2024→2029E）	$240 → $900 亿（CAGR 30%）
AI 集群交换机 CAGR	55%（2023-2026）
2025 Q3 以太网占 AI 集群交换机出货	2/3+
AI 后端以太网 NVIDIA+Celestica 份额	~50%（2025）

主要玩家

协议路线：
- InfiniBand — NVIDIA Quantum 平台，xAI Colossus / Microsoft 部分集群
- 以太网 + Spectrum-X — NVIDIA 端到端，Oracle OCI / CoreWeave
- 以太网 + Ultra Ethernet — Meta / 微软 / AWS 主推开放方案
交换机厂商：NVIDIA / Arista Networks / Cisco / 华为 / Celestica
DPU/SuperNIC：BlueField / Pensando / 中科驭数

与 NVLink 的层级关系

层	范围	协议	当代速率
Scale-up	机柜内 GPU-GPU	NVLink / NVSwitch	1.8 TB/s（NVL72）
Scale-out（后端网络）	机柜间 GPU 集群	InfiniBand / Spectrum-X / UEC	400G-1.6T/端口
前端	集群对外 / 存储 / 管理	以太网	100-400G

在 AI 产业链中的角色

后端网络是 AI 训练的"咽喉"——GPU 算力涨 10×，但后端带宽涨不上去就只能空转。NVIDIA 通过 Spectrum-X + BlueField 端到端绑定后端网络，让客户买完 GPU 必须买配套交换机/DPU。这也是 Ultra Ethernet 联盟想撕开的最大缺口。

∈ belongs_to::3-06-数据中心网络架构与互联服务