AI产业链地图·知识库 混合专家模型 · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/混合专家模型
更新 2026·06·17
概念 技术 / 术语

混合专家模型

MoE · Mixture of Experts · 专家混合

MoE 将 Transformer 中的稠密 FFN 层替换为多个并行的专家网络 + 路由器。路由器为每个 token 选择 top-k 个专家激活,其他专家不参与计算。

混合专家模型 CONCEPT · 概念
首次提出
2021
关键参与方
[[DeepSeek]] · [[Mistral AI]] · [[阿里巴巴]] · [[Google]]
反向引用
4 处 · 来自 3
归属 MoETransformer变体大模型架构第四层

混合专家模型

"MoE = Mixture of Experts",Transformer 架构 的稀疏激活变体。模型总参数量极大,但每次推理只激活一小部分"专家",显著降低推理成本。2026 主流大模型架构。

定义

MoE 将 Transformer 中的稠密 FFN 层替换为多个并行的专家网络 + 路由器。路由器为每个 token 选择 top-k 个专家激活,其他专家不参与计算。

技术细节

  • 稀疏激活 — 总参数 671B,激活参数仅 37B(如 DeepSeek-V3)
  • 路由器(Router/Gate)— 决定 token 分配给哪些专家
  • 负载均衡 — 通过辅助损失防止专家"塌缩"
  • 细粒度 vs 粗粒度 — DeepSeek 推动细粒度(256 个小专家)
  • 训练挑战 — 通信开销 / 专家负载不均

主要玩家

  • DeepSeek — DeepSeek-V3 / R1 极致稀疏 MoE
  • Mistral AI — Mixtral 8x7B / 8x22B 开源 MoE
  • 阿里巴巴 — Qwen MoE 变体
  • Google — Gemini 1.5 Pro MoE
  • 月之暗面 — Kimi K2 万亿参数 MoE

在 AI 产业链中的角色

MoE 是 2026 4-02-模型工厂事实标准架构。它解决了"模型变大但推理成本可控"的矛盾,使得万亿参数模型推理价格可降到合理范围。DeepSeek 通过 MoE 把每百万 token 推理价压到 2-4 元,颠覆全球定价。

演进历史

  • 1991 Hinton 等提出 MoE 原始概念
  • 2017 Google Sparsely-Gated MoE 论文(Shazeer)
  • 2021 Switch Transformer(Google)
  • 2023-12 Mixtral 8x7B 开源
  • 2024-12 DeepSeek-V3(671B / 激活 37B)
  • 2025-07 月之暗面 Kimi K2 万亿 MoE

相关概念

∈ belongs_to::4-02-模型工厂