华为昇腾910B
华为旗下海思半导体研制的旗舰数据中心 AI 训练 NPU(2023 量产),是当前中国国产 AI 算力替代的核心载体,CloudMatrix384 超节点由 384 颗 910B 组成,对标 NVIDIA H100 的国产首选。
技术参数
| 维度 | 数值 |
|---|---|
| 架构 | 达芬奇架构(华为自研,第三代) |
| 发布 | 2019 首代 910 / 2023 量产 910B 改良版 |
| 制程 | 中芯国际 N+2(推测 7nm 等效,受出口管制中芯国际产能限制) |
| FP16 算力 | ~280 TFLOPS(910 原代 256 TFLOPS) |
| INT8 算力 | ~640 TOPS |
| 显存 | 64 GB HBM2e |
| 显存带宽 | ~1.6 TB/s |
| TDP | ~310-400W |
| 互联 | HCCS(华为自研)双向 392 GB/s |
| 软件栈 | CANN(华为对标 CUDA 的 AI 异构计算架构) |
在 AI 算力链中的角色
昇腾910B 是 3-02 算力租赁国产替代的核心算力来源(据 3-02):
- CloudMatrix384 超节点 — 华为 2024 推出的 AI 集群方案,由 384 颗 910B 通过华为自研互联组成,对标 GB200 NVL72
- 三大运营商主力国产采购 — 中国电信 / 中国移动 / 中国联通 智算中心 NPU 采购中 910B 占主导
- 政府智算项目 — 30+ 城市 算力券 项目优先采购国产芯片,910B 占国产 NPU 份额第一
- AI 公司部分采用 — 科大讯飞 / 百度 / 腾讯 部分推理负载已迁移至 910B
与 NVIDIA 同代产品对比
| 维度 | 昇腾910B | NVIDIA H100 | NVIDIA H800 | NVIDIA B200 |
|---|---|---|---|---|
| FP16 算力 | ~280 TFLOPS | ~989 TFLOPS | ~989 TFLOPS | ~2,250 TFLOPS |
| HBM | 64 GB HBM2e | 80 GB HBM3 | 80 GB HBM3 | 192 GB HBM3e |
| 显存带宽 | 1.6 TB/s | 3.35 TB/s | 3.35 TB/s | 8 TB/s |
| 互联带宽 | 392 GB/s(HCCS) | 900 GB/s(NVLink 4) | 400 GB/s(NVLink 4 阉割) | 1,800 GB/s(NVLink 5) |
| 中国可售性 | ✅ 国产,无限制 | ❌ 禁运 | ⚠️ 2024-10 后受限 | ❌ 禁运 |
| 软件生态 | CANN(弱) | CUDA(强护城河) | CUDA | CUDA |
| 单价(中国市场) | ~¥15-20 万/颗 | 灰色渠道 ~¥30-40 万 | ~¥25-35 万 | 灰色渠道 ~¥50+ 万 |
性能差距评估:910B 单卡 FP16 算力约为 H100 的 28%,HBM 容量 80%,互联带宽 44%。在中等规模训练(千卡级)任务上通过算法优化可接近 H100,但大模型(万亿参数)训练效率仍存差距。
软件生态:CANN vs CUDA
- CUDA 经 17 年生态积累,是 NVIDIA 最深护城河——主流 AI 框架(PyTorch / TensorFlow / JAX)全部原生支持
- CANN(Compute Architecture for Neural Networks)是华为对标 CUDA 的异构计算架构。MindSpore 框架原生支持,PyTorch 通过 Ascend Extension 接入但仍存在算子覆盖度问题
- 国产化转型的核心瓶颈是算子覆盖 + 主流模型移植的工程量,DeepSeek 等主流开源模型已有 910B 适配方案
商业意义
昇腾910B 是中国 AI 算力地缘政治避险的核心方案:
- 解决"卡脖子" — 美国出口管制持续收紧背景下,910B 提供国产可控算力基线
- 支撑国家级 AI 战略 — "东数西算"+ 各地智算中心建设中 NPU 国产替代率正在快速提升
- 算力租赁商必备组合 — 利通电子 / 中贝通信 / 协创数据 等都在 NVIDIA + 昇腾混合部署,应对政策不确定性
- 倒逼 NVIDIA 中国策略调整 — NVIDIA 通过持续推出 H800/H20/B30 等特供版维持市场,但每一代都降规一次
关键产品演进
| 代际 | 发布 | 制程 | FP16 算力 | 备注 |
|---|---|---|---|---|
| 昇腾910 | 2019 | TSMC 7nm | 256 TFLOPS | 首代旗舰 |
| 昇腾910B | 2023 | 中芯 N+2 | 280 TFLOPS | 当前主力 |
| 昇腾910C | 2025 H2(预期) | 中芯 N+2 改良 | ~400 TFLOPS(推测) | 双 die 设计传闻 |
| 昇腾920 | 2026+(规划) | 中芯 N+1(推测) | — | 下一代旗舰 |
CloudMatrix384 超节点
华为 2024 推出的国产算力集群标志性产品:
- 384 颗 910B GPU 通过华为自研超节点互联
- 对标 NVIDIA GB200 NVL72(72 颗 B200)
- 单节点 FP16 算力 ~107 PFLOPS
- 单价 ¥5,000 万+,已在 华为云 / 中国电信 等大规模部署
关联
↑ up::2-01-核心逻辑芯片 华为 中芯国际 昇腾生态 ↓ down::华为云 3-02-AI算力租赁-智算服务 4-02-模型工厂 4-04-模型部署与优化 科大讯飞 ⚔ competitor::NVIDIA H100 NVIDIA H800 NVIDIA B200 寒武纪 思元 590 海光信息 DCU ∈ belongs_to::2-01-核心逻辑芯片
关联深度报告
→ 3-02-AI算力租赁-智算服务 2-01-核心逻辑芯片