AI产业链地图·知识库 异构算力池化 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/异构算力池化
更新 2026·06·17
概念 技术 / 术语

异构算力池化

Heterogeneous Compute Pooling · 异构资源池化 · 算力池化 · GPU 池化

异构算力池化分为两个维度

异构算力池化 CONCEPT · 概念
首次提出
2022
关键参与方
[[中科曙光]] · [[并行科技]] · [[趋动科技]] · [[优刻得]]
反向引用
5 处 · 来自 4
归属 算力调度异构池化第三层

异构算力池化

NVIDIA GPU + 华为昇腾 + AMD + 寒武纪 + 海光 等不同厂商、不同架构的算力资源统一抽象成"一个池子",按需切片分配 — 国产替代 + 算力短缺背景下,中国算力调度的核心命题

定义

异构算力池化分为两个维度

  1. 跨架构池化 — 不同 ISA / 指令集(CUDA / CANN / ROCm / NeuWare)的算力统一调度
  2. 细粒度切片 — 单卡按算力 / 显存切成多份(如 H100 切 7 个虚拟 GPU)

关键技术

技术 描述 厂商
GPU 虚拟化 单 GPU 切多个虚拟实例(vGPU) NVIDIA MIG、趋动科技 OrionX
跨架构 IR 中间表示层抽象不同芯片 Apache TVM、华为 Mindstudio
统一编排 K8s + Device Plugin Volcano、Kueue
跨集群调度 多智算中心统一视图 中科曙光 ParaStor 调度
断点续训 任务跨节点 / 跨架构续跑 断点续训

主要玩家

中国

海外

  • Run:AI(被 NVIDIA 收购)— GPU 编排 SOTA
  • Anyscale Ray — 分布式异构调度
  • NVIDIA MIG + NIM — 官方虚拟化方案

为什么对中国尤其重要

  1. 算力短缺 — 美国对华出口管制,单卡稀缺 → 必须最大化利用每张卡
  2. 国产替代多元化 — 客户机房同时有 NVIDIA H800 + 昇腾 910B + 海光 DCU,需要统一调度
  3. 东数西算 — 跨省调度天然要求异构兼容
  4. 政策推动 — 工信部 2026 "算力互联互通行动计划" 直接命题

关键挑战

挑战 描述
CUDA 锁定 大模型代码默认 PyTorch + CUDA,迁移到昇腾 / 寒武纪需重写算子
算子兼容性 不同芯片支持的算子集不一,模型不兼容
性能差距 国产卡相对 H100 性能 50-80%,调度需感知能力差异
故障率 国产卡早期不稳定,需重试 / 切换机制
网络拓扑 NVLink / IB / RoCE 拓扑感知调度

相关

∈ belongs_to::3-07-AI原生中间件与开发平台