华为昇腾910B

华为旗下海思半导体研制的旗舰数据中心 AI 训练 NPU（2023 量产），是当前中国国产 AI 算力替代的核心载体，CloudMatrix384 超节点由 384 颗 910B 组成，对标 NVIDIA H100 的国产首选。

技术参数

昇腾910B 是 3-02 算力租赁国产替代的核心算力来源（据 3-02）：

CloudMatrix384 超节点 — 华为 2024 推出的 AI 集群方案，由 384 颗 910B 通过华为自研互联组成，对标 GB200 NVL72
三大运营商主力国产采购 — 中国电信 / 中国移动 / 中国联通智算中心 NPU 采购中 910B 占主导
政府智算项目 — 30+ 城市算力券项目优先采购国产芯片，910B 占国产 NPU 份额第一
AI 公司部分采用 — 科大讯飞 / 百度 / 腾讯部分推理负载已迁移至 910B

维度	昇腾910B	NVIDIA H100	NVIDIA H800	NVIDIA B200
FP16 算力	~280 TFLOPS	~989 TFLOPS	~989 TFLOPS	~2,250 TFLOPS
HBM	64 GB HBM2e	80 GB HBM3	80 GB HBM3	192 GB HBM3e
显存带宽	1.6 TB/s	3.35 TB/s	3.35 TB/s	8 TB/s
互联带宽	392 GB/s（HCCS）	900 GB/s（NVLink 4）	400 GB/s（NVLink 4 阉割）	1,800 GB/s（NVLink 5）
中国可售性	✅ 国产，无限制	❌ 禁运	⚠️ 2024-10 后受限	❌ 禁运
软件生态	CANN（弱）	CUDA（强护城河）	CUDA	CUDA
单价（中国市场）	~￥15-20 万/颗	灰色渠道 ~￥30-40 万	~￥25-35 万	灰色渠道 ~￥50+ 万

性能差距评估：910B 单卡 FP16 算力约为 H100 的 28%，HBM 容量 80%，互联带宽 44%。在中等规模训练（千卡级）任务上通过算法优化可接近 H100，但大模型（万亿参数）训练效率仍存差距。

CUDA 经 17 年生态积累，是 NVIDIA 最深护城河——主流 AI 框架（PyTorch / TensorFlow / JAX）全部原生支持
CANN（Compute Architecture for Neural Networks）是华为对标 CUDA 的异构计算架构。MindSpore 框架原生支持，PyTorch 通过 Ascend Extension 接入但仍存在算子覆盖度问题
国产化转型的核心瓶颈是算子覆盖 + 主流模型移植的工程量，DeepSeek 等主流开源模型已有 910B 适配方案

昇腾910B 是中国 AI 算力地缘政治避险的核心方案：

代际	发布	制程	FP16 算力	备注
昇腾910	2019	TSMC 7nm	256 TFLOPS	首代旗舰
昇腾910B	2023	中芯 N+2	280 TFLOPS	当前主力
昇腾910C	2025 H2（预期）	中芯 N+2 改良	~400 TFLOPS（推测）	双 die 设计传闻
昇腾920	2026+（规划）	中芯 N+1（推测）	—	下一代旗舰

华为 2024 推出的国产算力集群标志性产品：