ROCm(Radeon Open Compute)
AMD 自 2016 年起推出的 开源 GPU 计算软件栈,对标 NVIDIA 的 CUDA 生态。是 MI300X 等 AMD AI 芯片的软件支撑,也是国产 海光信息 走"兼容路线"实现国产替代的关键。
是什么
ROCm = Radeon Open Compute。AMD 推出的 开源 异构计算平台与编程模型,覆盖驱动、运行时、编译器、算子库(rocBLAS / MIOpen 等)。通过 HIP 层提供与 CUDA 接近的 API,开发者可以把 CUDA 代码以较低成本迁移到 AMD GPU 上运行。
为什么关键
- AMD MI300X / MI350 / MI450 软件支撑 — 没有 ROCm 就没有 AMD 在数据中心 AI 加速器市场 10-15% 份额的故事(据2-01)
- 开源 vs CUDA 私有 — ROCm 完全开源,对开发者和云厂商透明,反 CUDA 生态 锁定的标志性方案
- 国产替代关键路径 — 海光信息 DCU 走 ROCm 兼容路线,能直接复用全球 ROCm 算子和应用生态,是其国产 AI 芯片营收/盈利最强的根本原因(据2-01)
- 迁移成本相对 CUDA 较低 — HIP 层让 CUDA → ROCm 的代码移植可达到大部分自动转换
- 客户认可度提升 — Meta 的 Llama 405B 全部运行于 MI300X 是 ROCm 在生产负载站稳脚跟的标志
与 CUDA 的差距
- 生态规模差距 — CUDA 生态 拥有 400 万+ 开发者、3,000+ 优化应用,ROCm 远未追上
- 算子覆盖 — 主流模型可跑,但长尾算子和最新研究代码仍以 CUDA 为先发
- PyTorch / TensorFlow 等框架对 ROCm 的支持已逐步成熟,但默认优化路径仍偏向 CUDA
替代 / 竞争 / 关联
- ⚔ competitor::CUDA 生态 — 行业事实标准,ROCm 的对标对象
- ⚔ competitor::CANN — 华为昇腾 的中国自主软件栈
- ∈ belongs_to::2-01-核心逻辑芯片
- ↑ up::AMD
- ↓ down::海光信息(兼容路线下游)