智算服务
专为 AI 训练/推理设计的 GPU/NPU 集群云服务。区别于通用云计算,强调"高密度算力 + 高速互联 + AI 全栈优化"。是中国"东数西算"政策的核心载体。
定义
智算服务(Intelligent Computing Service)是面向人工智能工作负载专门优化的云计算形态。底层硬件以 GPU(NVIDIA H100/B200)/ NPU(华为 昇腾 910C)/ TPU 为主,配套高速互联(NVLink / InfiniBand / RDMA)、并行文件系统、AI 框架优化和分布式训练调度。
智算服务的核心买家是大模型训练团队、AIGC 公司、自动驾驶研发、生物医药 AI 等高算力消费方。
技术细节
- 算力规格:单集群 千卡集群 → 万卡集群 → 十万卡集群 演进
- 互联:节点内 NVLink 900GB/s、节点间 InfiniBand 400G/800G / RoCE
- 存储:并行文件系统(Lustre / GPFS / 阿里云 CPFS)、热数据 NVMe SSD
- 网络拓扑:Fat-Tree / Dragonfly+ / CloudMatrix384 全对等
- AI 全栈:从硬件 → 调度(Slurm / Kubernetes)→ 框架(DeepSpeed / Megatron)→ 训练数据流水线
- 能效:PUE 1.1-1.2,配套液冷 / 浸没冷却
主要玩家
- 公有云智算:阿里云 PAI 灵骏 / 华为云 智算 / 百度智能云 百舸 / 腾讯云 HCC / 火山引擎 智算云
- 运营商智算:天翼云(贵安 / 武汉智算中心,11 万+ 昇腾)/ 移动云 / 联通云
- AI 原生云 / Neoclouds:CoreWeave / Nebius / Lambda Labs
- AI 公司自建智算:商汤科技 SenseCore大装置 4 万 GPU / 字节跳动 / 阿里巴巴
- 政府智算中心:北京、上海、武汉、贵安、庆阳等地"东数西算"枢纽
在 AI 产业链中的角色
智算服务是第三层与第四层 AI 模型的直接接口 — 大模型训练消费的就是智算。区别于第三层中第三方算力转租(3-02-AI算力租赁-智算服务)的"裸 GPU 出租"业务,云厂商的智算服务通常打包了 AI PaaS / 调度 / 数据处理等增值能力,毛利更高。
演进历史
- 2022:智算中心概念兴起,配合"东数西算"工程启动
- 2023:ChatGPT 引爆智算需求,千卡集群 成大模型标配
- 2024:万卡集群 普及,NVIDIA H100/B200 主流
- 2025:十万卡集群 启动建设(OpenAI 星门计划、xAI Colossus 20 万卡);中国 华为云 部署 CloudMatrix384 300+ 套
- 2025-2030E:中国 AI 云市场 CAGR 26.8%(Omdia)
相关概念 / 关系
↑ up::2-01-核心逻辑芯片 2-02-AI服务器整机 ↓ down::4-02-模型工厂 4-04-模型部署与优化 ↔ related::3-02-AI算力租赁-智算服务 ∈ belongs_to::3-01-云计算与智算平台
参考:来源摘要