扩散模型
"Diffusion Model",通过逐步去噪生成数据的生成式模型范式。是 Stable Diffusion、DALL·E、Midjourney 等图像生成模型的核心算法,也是视频生成模型(OpenAI Sora / 可灵 / Runway)的早期主流路线。2026 正向 流匹配(Flow Matching)演进。
定义
扩散模型分两阶段:
- 前向扩散 — 把真实数据逐步加噪声直到纯噪声
- 反向去噪 — 训练神经网络从噪声逐步恢复数据 推理时:从随机噪声出发,通过 N 步去噪生成数据
技术细节
- DDPM(2020)— 经典扩散框架
- Latent Diffusion(Stable Diffusion)— 在 VAE 隐空间扩散,效率大增
- Classifier-Free Guidance — 提示词条件控制
- DiT(Diffusion Transformer)— Transformer 替代 U-Net,Sora 采用
- 采样步数:早期 1000 步 → DDIM 50 步 → 蒸馏后 4 步
主要玩家
- 图像生成:Stable Diffusion / DALL·E / Midjourney / FLUX
- 视频生成:OpenAI Sora / 可灵 / Runway / Pika
- 3D 生成:DreamFusion 等
在 AI 产业链中的角色
扩散模型是 4-02-模型工厂 中视觉生成领域的核心算法。但 2025-2026 正在被 流匹配(Flow Matching)逐步替代,代表模型包括 Sora 2 Pro / 可灵 3.0 / Seedance 1.5 Pro。
演进历史
- 2020 DDPM(Ho et al.)
- 2022 Stable Diffusion 开源
- 2022-04 DALL·E 2 + Midjourney
- 2024 Sora(基于 DiT)
- 2025 流匹配 逐步取代
∈ belongs_to::4-02-模型工厂