InfiniBand
AI 集群专用低延迟高带宽互联协议 — 1999 年由 InfiniBand Trade Association 推出,原为 HPC 设计,NVIDIA 通过收购 Mellanox 获得,成为当代 AI 大模型训练 Scale-out 网络的事实标准。
是什么
InfiniBand 是基于 RDMA(Remote Direct Memory Access)的网络协议栈,绕开 CPU 直接访问远端节点内存。相比传统 Ethernet:
- 延迟更低(< 1μs 端到端)
- 带宽更高(当代 NDR 400G / XDR 800G)
- 零拷贝(用户态 verbs API)
适合 AI 训练的 all-reduce / all-to-all 集合通信。
为什么关键
- 大模型训练的事实标准 — GPT / Claude / Gemini 等头部模型训练集群基本用 IB
- NVIDIA 软硬一体护城河的一部分 — 通过 2019 年收购 Mellanox 获得,与 NVLink / Spectrum-X 形成完整网络栈
- 三层互联体系 — IB 处于中间:NVLink(Scale-up 机柜内)+ InfiniBand(机柜间专网)+ Ethernet(通用 / Scale-out)
- 被 Ethernet 反扑 — Spectrum-X / Ultra Ethernet Consortium 正在用以太网 + 增强方案抢 IB 的位置
演进路线
| 代际 | 单链路带宽 | 时间 |
|---|---|---|
| QDR | 40 Gbps | 2008 |
| FDR | 56 Gbps | 2011 |
| EDR | 100 Gbps | 2014 |
| HDR | 200 Gbps | 2018 |
| NDR | 400 Gbps | 2022(当代) |
| XDR | 800 Gbps | 2025-2026 |
演进与 NVIDIA 内部博弈
- InfiniBand → Ethernet 演进 — NVIDIA 推 Spectrum-X / Quantum-X,把 IB 经验(RDMA / 拥塞控制)移植到以太网
- ⚔ competitor::Ethernet(含 Ultra Ethernet Consortium、AWS 自研 SRD)
- ⚔ competitor::NVLink(机柜内 fabric,更紧耦合)
关键来源
与 AI 产业链关系
⚔ competitor:: CXL 3.0 Ultra Ethernet Consortium 云豹智能 以太网