AI产业链地图·知识库 多模态模型 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/多模态模型

更新 2026·06·17

概念技术 / 术语

多模态模型

Multimodal Model · 多模态 LLM · MLLM · Multimodal LLM

多模态模型是单一模型能同时理解和生成多种模态数据（不是简单拼接多个单模态模型）。核心特征：

多模态模型 CONCEPT · 概念

首次提出: 2023
关键参与方: [[OpenAI]] · [[Google]] · [[Anthropic]] · [[Meta]]
反向引用: 3 处 · 来自 3 页

归属多模态LLM视觉音频第四层

多模态模型

集文本 + 图像 + 视频 + 音频 + 代码于一体的统一模型架构。2026 年领先基础模型已不再是纯文本 LLM，GPT-4o / Gemini 2.5 / Claude 4.5 Opus 均已具备强大的多模态能力。

定义

多模态模型是单一模型能同时理解和生成多种模态数据（不是简单拼接多个单模态模型）。核心特征：

跨模态语义对齐
统一表示空间
端到端训练
任意模态输入/输出组合

技术细节

早融合（GPT-4o）— 在原始 token 层面融合
晚融合（早期 CLIP）— 各模态独立编码后对齐
跨模态注意力 — Attention 跨模态计算
扩展模态：图像 → 视频 → 3D → 音频 → 触觉

主要玩家

OpenAI — GPT-4o（原生多模态）
Google — Gemini 2.5（多模态原生设计）
Anthropic — Claude 4.5 Opus（视觉强）
Meta — Llama 4（多模态开源）
阿里巴巴 — Qwen-VL / Qwen-Audio

在 AI 产业链中的角色

多模态融合是 4-02-模型工厂 2026 主轴趋势。竞争已不仅是"谁的文本推理更强"，而是"谁的全模态能力更均衡更协调"。视频生成升级至分钟级，AI 音乐达 studio 级，3D 生成 10 秒可用，全部依托多模态架构。

演进历史

2021 CLIP（OpenAI）开启图文对齐时代
2023-09 GPT-4V 视觉能力发布
2024-05 GPT-4o 原生多模态
2024 Gemini 1.5 / Claude 3.5 视觉
2025 视频生成（Sora / 可灵 / Seedance）成熟

∈ belongs_to::4-02-模型工厂

反向引用链接到本页

反向引用 3

按引用量 ↓

… **推理与对齐** — [[推理模型]]（Chain-of-Thought / Reasoning）/ [[RLHF]] / [[DPO]] / [[GRPO]] / [[模型蒸馏]] / [[推理时计算]] 3. **多模态融合** — 多模态模型 / [[扩散模型]] / [[流匹配]] / [[视频生成模型]] / [[语音克隆]] / [[AI 音乐生成]] 4. **3D / 空间** — [[高斯溅射]] / [[NeRF]] / [[文本到3D]] …

查看原文 →

… - **数字人**：[[虚拟数字人]] 厂商 ## 在 AI 产业链中的角色 ∈ belongs_to::[[5-11-AI客服-对话机器人]] ↑ up::[[ASR]] / [[TTS]] / 多模态模型## 相关概念 - [[智能客服]] / [[ASR]] / [[TTS]] / [[虚拟数字人]] / [[全渠道客服]] …

查看原文 →

… - [[Transformer 架构]] — LLM 的算法基石 - [[混合专家模型]]（MoE）— 主流架构 - [[推理模型]]（Reasoning）— LLM 升级方向 - 多模态模型 — LLM 横向扩展 - [[长上下文窗口]] — LLM 关键能力维度 ## 增量补充（2026-05-29） - **市场规模数据溯源**：正文"2026 全球 LLM 市场 $105.7 亿、CAGR 34.4%、2035 达 …

查看原文 →