AI产业链地图·知识库 混合专家模型 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/混合专家模型

更新 2026·06·17

概念技术 / 术语

混合专家模型

MoE · Mixture of Experts · 专家混合

MoE 将 Transformer 中的稠密 FFN 层替换为多个并行的专家网络 + 路由器。路由器为每个 token 选择 top-k 个专家激活，其他专家不参与计算。

混合专家模型 CONCEPT · 概念

首次提出: 2021
关键参与方: [[DeepSeek]] · [[Mistral AI]] · [[阿里巴巴]] · [[Google]]
反向引用: 4 处 · 来自 3 页

归属 MoETransformer变体大模型架构第四层

混合专家模型

"MoE = Mixture of Experts"，Transformer 架构的稀疏激活变体。模型总参数量极大，但每次推理只激活一小部分"专家"，显著降低推理成本。2026 主流大模型架构。

定义

MoE 将 Transformer 中的稠密 FFN 层替换为多个并行的专家网络 + 路由器。路由器为每个 token 选择 top-k 个专家激活，其他专家不参与计算。

技术细节

稀疏激活 — 总参数 671B，激活参数仅 37B（如 DeepSeek-V3）
路由器（Router/Gate）— 决定 token 分配给哪些专家
负载均衡 — 通过辅助损失防止专家"塌缩"
细粒度 vs 粗粒度 — DeepSeek 推动细粒度（256 个小专家）
训练挑战 — 通信开销 / 专家负载不均

主要玩家

DeepSeek — DeepSeek-V3 / R1 极致稀疏 MoE
Mistral AI — Mixtral 8x7B / 8x22B 开源 MoE
阿里巴巴 — Qwen MoE 变体
Google — Gemini 1.5 Pro MoE
月之暗面 — Kimi K2 万亿参数 MoE

在 AI 产业链中的角色

MoE 是 2026 4-02-模型工厂的事实标准架构。它解决了"模型变大但推理成本可控"的矛盾，使得万亿参数模型推理价格可降到合理范围。DeepSeek 通过 MoE 把每百万 token 推理价压到 2-4 元，颠覆全球定价。

演进历史

1991 Hinton 等提出 MoE 原始概念
2017 Google Sparsely-Gated MoE 论文（Shazeer）
2021 Switch Transformer（Google）
2023-12 Mixtral 8x7B 开源
2024-12 DeepSeek-V3（671B / 激活 37B）
2025-07 月之暗面 Kimi K2 万亿 MoE

相关概念

∈ belongs_to::4-02-模型工厂

反向引用链接到本页

反向引用 4

按引用量 ↓

… - [[Tripo / VAST]] ★★★★（3D 生成 300 万+ 用户） ## 核心技术维度 1. **大语言模型** — [[Transformer 架构]] / [[大语言模型]] / [[基础模型]] / 混合专家模型（MoE）/ [[长上下文窗口]] 2. **推理与对齐** — [[推理模型]]（Chain-of-Thought / Reasoning）/ [[RLHF]] / [[DPO]] / [[GRPO]] / [[模型蒸馏]] / [[推理 …

… ∈ belongs_to::[[第四层-模型]] ## 关键趋势 1. **"效率革命"** — [[DeepSeek]] R1 以 2-4 元/百万 token 颠覆全球定价，[[推理模型]] / 混合专家模型 / [[模型蒸馏]] 成主线 2. **AI Agent 化** — [[Claude Code]] / [[Cursor]] / [[OpenAI Codex]] 三强突破，开发者从"写代码"转向"审 AI 代码" …

查看原文 →

… Transformer 是 [[4-02-模型工厂]] 的**算法基础设施**。理解 Transformer 即理解现代 AI；其架构选择直接影响训练成本 / 推理速度 / 模型能力。 ## 相关概念 - [[大语言模型]] - 混合专家模型- [[注意力机制]] - [[基础模型]] ∈ belongs_to::[[4-02-模型工厂]] …

查看原文 →

… I 应用（[[5-06-AI办公与企业服务]] / [[5-03-AIGC-数字媒体-创意工具]] / [[5-09-AI金融-量化交易]] 等）。 ## 相关概念 - [[Transformer 架构]] — LLM 的算法基石 - 混合专家模型（MoE）— 主流架构 - [[推理模型]]（Reasoning）— LLM 升级方向 - [[多模态模型]] — LLM 横向扩展 - [[长上下文窗口]] — LLM 关键能力维度 …

查看原文 →