混合专家模型
"MoE = Mixture of Experts",Transformer 架构 的稀疏激活变体。模型总参数量极大,但每次推理只激活一小部分"专家",显著降低推理成本。2026 主流大模型架构。
定义
MoE 将 Transformer 中的稠密 FFN 层替换为多个并行的专家网络 + 路由器。路由器为每个 token 选择 top-k 个专家激活,其他专家不参与计算。
技术细节
- 稀疏激活 — 总参数 671B,激活参数仅 37B(如 DeepSeek-V3)
- 路由器(Router/Gate)— 决定 token 分配给哪些专家
- 负载均衡 — 通过辅助损失防止专家"塌缩"
- 细粒度 vs 粗粒度 — DeepSeek 推动细粒度(256 个小专家)
- 训练挑战 — 通信开销 / 专家负载不均
主要玩家
- DeepSeek — DeepSeek-V3 / R1 极致稀疏 MoE
- Mistral AI — Mixtral 8x7B / 8x22B 开源 MoE
- 阿里巴巴 — Qwen MoE 变体
- Google — Gemini 1.5 Pro MoE
- 月之暗面 — Kimi K2 万亿参数 MoE
在 AI 产业链中的角色
MoE 是 2026 4-02-模型工厂 的事实标准架构。它解决了"模型变大但推理成本可控"的矛盾,使得万亿参数模型推理价格可降到合理范围。DeepSeek 通过 MoE 把每百万 token 推理价压到 2-4 元,颠覆全球定价。
演进历史
- 1991 Hinton 等提出 MoE 原始概念
- 2017 Google Sparsely-Gated MoE 论文(Shazeer)
- 2021 Switch Transformer(Google)
- 2023-12 Mixtral 8x7B 开源
- 2024-12 DeepSeek-V3(671B / 激活 37B)
- 2025-07 月之暗面 Kimi K2 万亿 MoE
相关概念
- Transformer 架构
- 大语言模型
- 稀疏激活
∈ belongs_to::4-02-模型工厂