异构算力池化
把 NVIDIA GPU + 华为昇腾 + AMD + 寒武纪 + 海光 等不同厂商、不同架构的算力资源统一抽象成"一个池子",按需切片分配 — 国产替代 + 算力短缺背景下,中国算力调度的核心命题。
定义
异构算力池化分为两个维度:
- 跨架构池化 — 不同 ISA / 指令集(CUDA / CANN / ROCm / NeuWare)的算力统一调度
- 细粒度切片 — 单卡按算力 / 显存切成多份(如 H100 切 7 个虚拟 GPU)
关键技术
| 技术 | 描述 | 厂商 |
|---|---|---|
| GPU 虚拟化 | 单 GPU 切多个虚拟实例(vGPU) | NVIDIA MIG、趋动科技 OrionX |
| 跨架构 IR | 中间表示层抽象不同芯片 | Apache TVM、华为 Mindstudio |
| 统一编排 | K8s + Device Plugin | Volcano、Kueue |
| 跨集群调度 | 多智算中心统一视图 | 中科曙光 ParaStor 调度 |
| 断点续训 | 任务跨节点 / 跨架构续跑 | 断点续训 |
主要玩家
中国
- 趋动科技 OrionX — GPU 池化先锋,软件定义 GPU
- 中科曙光 — "立体计算" 战略,七省智算异构池
- 并行科技 — "并行算网",18 年超算池化经验
- 优刻得 — 公有云背景的异构调度
- 青云科技 — 智算云异构平台
- 第四范式 OpenMLDB + Sage AI 平台
- 华为 CANN — 昇腾 + 第三方融合
- 阿里云 cGPU / 腾讯云 qGPU — 云厂商自研 GPU 切片
海外
为什么对中国尤其重要
- 算力短缺 — 美国对华出口管制,单卡稀缺 → 必须最大化利用每张卡
- 国产替代多元化 — 客户机房同时有 NVIDIA H800 + 昇腾 910B + 海光 DCU,需要统一调度
- 东数西算 — 跨省调度天然要求异构兼容
- 政策推动 — 工信部 2026 "算力互联互通行动计划" 直接命题
关键挑战
| 挑战 | 描述 |
|---|---|
| CUDA 锁定 | 大模型代码默认 PyTorch + CUDA,迁移到昇腾 / 寒武纪需重写算子 |
| 算子兼容性 | 不同芯片支持的算子集不一,模型不兼容 |
| 性能差距 | 国产卡相对 H100 性能 50-80%,调度需感知能力差异 |
| 故障率 | 国产卡早期不稳定,需重试 / 切换机制 |
| 网络拓扑 | NVLink / IB / RoCE 拓扑感知调度 |
相关
∈ belongs_to::3-07-AI原生中间件与开发平台